论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection

(1)Author

  • 作 者
    Ann-Katrin Fattal, Michelle Karg, Christian Scharfenberger and Jürgen Adamy
  • 机 构
    Control Methods and Robotics, Technische Universität Darmstadt, Germany
    Vision and Image Processing Lab, University of Waterloo, Waterloo, Canada
    Continental AG, Germany
  • 时 间
    2017年

(2)Abstract

  • 本文的主要目标是解决图像中包含的远距离目标,实际上就是小目标检测不准的问题;
  • 主要的解决方案是对RPN网络进行改进,引入了“prior”来引导RPN网络找出包含潜在目标的区域,并且这个优先级是saliency-based的;
  • 引入这种机制后,RPN在做决策时不止参考feature map提供的局部信息,还要综合考虑“saliency-based prior”给出的全局信息;
  • 实验结果表明,在多个包含远距离车辆图像的数据集上取得了很好的性能。

(3)Conclusion

  • saliency-inspired方法的使用提升了RPN网络的整体性能;
  • prior的计算是无监督的方式,不需要引入额外的标签;
  • 整个框架十分简单,运行效率高,能够使用预训练的模型;
  • 在未来的研究中,作者打算把global prior分支和分类分支整合到一起,以应用于高速公路场景的小目标检测。

(4)Introduction

  • 说了些DL在自动驾驶领域应用的重要性,回顾了two-stage检测器的工作流程,指出之前的RPN网络只使用了图像的很小一部分信息;
  • 回顾前人研究,提到了多尺度特征融合策略等;
  • 第一个尝试综合全局信息到CNN中的方法是使用语义分割作为输入,Shrivastava等给出了一个框架来给RPN网络提供自上而下的分割信息,但这种方法需要像素级的标注信息,计算开销也大,因此作者想要构建一种既能引入全局信息而不用进行额外训练的方法。
  • 引入prior前后的效果对比,可以看到proposal的生成更加集中;
    在这里插入图片描述
  • 文中还指出增加召回率的同时,减少了分类分支需要评估的bounding box的数量,从而减少训练时间。
  • 作者指出之前没有人这样做过(To the best of the authors’ knowledge, the use of saliency maps for the purpose of incorporating global information to a region proposal network has not been previously proposed or investigated.),那肯定要这样说,哈哈哈。

(5)Methodology

  • 方法的整体结构如下所示: 在这里插入图片描述
    可以看到从输入图像中抽取的prior信息在RPN网络中与feature map进行了融合;

(5.1)Faster-RCNN with ZF Net

  • 讲了一下用Faster RCNN作为benchmark的原因,然后为了达到自动驾驶的高效率,引入了一个ZF Net作为backbone,这一块没啥好说的;

(5.2)Incorporation of Global Prior

  • 这一部分主要讲怎么把prior map整合进去,作者提出由于prior map属于低层级的特征信息,所以应该与第五卷积(这应该指的是它的ZF Net)输出的feature map进行融合;
  • 之前的研究指出,把这个prior map放的太靠前也不会有特别好的增益,文中指出把其放在最后一个共享的层之后能产生最大的增益,这样也能使用预训练模型和防止过拟合;

(5.3)Prior Maps

  • 在本文中使用了三种方式来实现visual attention(分别是Visual Attention Map、Spectral Residual、Voting Maps),说白了就是要让目标物通过处理变得更明显,三种方法对应的效果如下:
    在这里插入图片描述

(5.4)Visual Attention Map

  • 这个map由9种空间尺度对应的信息组成,在图像中的每个位置,计算周围环境和特征颜色、强度方差和边缘方向,并与图像的其余部分进行比较。

L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual
attention for rapid scene analysis,” IEEE Transactions on pattern
analysis and machine intelligence, vol. 20, no. 11, pp. 1254–1259,1998.

(5.5)Spectral Residual

  • 计算输入图像的对数傅里叶谱,然后用下采样图像的对数谱相减。然后将谱残差变换到空间域,并表示最终的显著图。由于与背景相比,包含小目标的区域显示出较高的空间频率,谱残差有利于引导RPN朝向包含小目标的区域,因此谱残差是较好的prior map;
  • 在嵌入式设备中,计算谱残差能够使用硬件加速。

X. Hou and L. Zhang, “Saliency detection: A spectral residual
approach,” in Computer Vision and Pattern Recognition, 2007.
CVPR’07. IEEE Conference on. IEEE, 2007, pp. 1–8.

(5.6)Voting Map for Distant Objects

  • 文章概括的太简略了,简略地让你一脸懵逼,详情计算见

A.-K. Batzer, C. Scharfenberger, M. Karg, S. Lueke, and J. Adamy,
“Generic hypothesis generation for small and distant objects,” in Intelligent
Transportation Systems (ITSC), 2016 IEEE 19th International
Conference on. IEEE, 2016, pp. 2171–2178.

主要目的还是为了照顾小目标检测

(6)Experiments

  • 三种map的在不同IoU下的效果对比: 在这里插入图片描述
    最有用的还是这个visual map,让我惊奇的是参考的这篇paper是1998年提出来的,不过效果提升还是很明显的;

(7)个人总结

  • 引入三类先验图来帮助RPN决策,其中一个还是物理方法做的,这比较有意思,增益也比较明显,但个人感觉可能计算量有点大;
  • 之前兼顾大小目标检测多采用多尺度特征融合、跳层提取特征这些方法来搞定,近几年引入非DL方法还是比较少见的,还是提供了一个不错的思路;
  • 这篇文章应该是非完全CV领域的研究人员做的,所以赘述有点多,有的地方吹得有点过。
已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 数字50 设计师:CSDN官方博客 返回首页