论文阅读:Spatial Transformer Networks

(1)Author

  • 作 者
    Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu
  • 机 构
    Google DeepMind, London, UK
  • 时 间
    2016年

(2)Abstract

  • 作者指出当前卷积网络的性能非常强大,但其对输入数据具有空间不变性导致其在计算和参数效率(parameter efficiency)受到限制,在本文中提出了一种新的可学习模块,其本身是可微的,并且能够直接被插入到卷积神经网络中,从而使整个网络能够主动地在空间上转换特征映射,而不需要对优化过程进行额外的训练监督或修改。实验结果表明,使用spatial transformer能够使模型学习到对平移、缩放、旋转和更一般的扭曲不变性,从而在多个基准和多个变换类上获得最先进的性能。

(3)Conclusion

  • 在本文中为神经网络设计了一种新的独立模块——spatial transformer。这个模块能被整合进神经网络,对特征进行显式地空间变换,为神经网络对数据建模提供了新的方法,并且能在不改变损失函数的情况下实现端到端的学习。在CNN网络提供了一个强大的baseline的同时,能够非常清楚地看到使用spatial transformer在各个任务上对精度的提升。此外,spatial transformer的回归变换参数可作为输出,并可用于后续任务。在本文中只探索了前馈网络,但作者指出早期的实验表明,空间变换在递归模型中具有强大的功能,对于需要分离对象参考帧的任务非常有用,并且易于扩展到三维变换

(4)Introduction

  • 作者指出由于对池化操作的空间支持很小,因此CNN的空间不变性仅在池化和卷积层中体现,而在其他的中间层特征上无法实现,例如经由卷积层的激活函数处理后的特征。CNN的这种局限性是由于只有一个有限的、预定义的池化机制来处理数据空间排列的变化;
  • spatial transformer的动作取决于独立的数据样本,并在训练中学习相关任务的合适动作,而无需额外的监督;
  • 传统的卷积层的感受野是局部而固定的,而spatial transformer是一个动态的模块,能够对每一个输入样本生成变换以对图像进行空间变换。spatial transformer是对整幅feature进行处理,能进行多种变换。网络不仅会选择一幅图像中最相关的区域,还会把这些区域变成规范的、期望的区域,以简化接下来各层的识别;
  • 使用spatial transformer对扭曲的MNIST数据进行校正:
    在这里插入图片描述

(5)Spatial Transformers

  • 结构如下:
    在这里插入图片描述
    整个spatial transformer主要做三件事情,首先feature map进入localisation network,它是有几个隐层,网络会输出一些参数,将这些参数统一定义为θ,之后θ会被用于生成采样的grid,最后采样器基于这些grid的点进行采样得到最终的输出。以上操作是对单通道定义的,对于多通道只需要分channel进行处理即可。
  • Localisation network
    网络会输出用于变换的参数,θ的size可根据变化的类型而变化,例如放射变换,θ的size就是6维的,这个网络能接受任何形式的输出,但要包含一个回归层来预测变化参数θ。
  • Parameterised Sampling Grid
    在这里插入图片描述
    文章给出了一组公式,该公式可进行裁剪、平移、旋转、缩放和倾斜:
    在这里插入图片描述
  • Differentiable Image Sampling
    输出的feature map由下列公式定义:
    在这里插入图片描述
    在这里插入图片描述
    文章指出, 任何可以定义梯度的采样器都可以使用,比如:
    在这里插入图片描述
    分别为整数采样器、双线性采样器,后者对应的偏导数为:
    在这里插入图片描述
  • Spatial Transformer Networks
    i. 该模块可以在任何时候放入CNN网络,计算开销很小;
    ii. 使用spatial transformer进行图像上、下采样是可行的,因为可以定义输出feature的尺寸不同于输入feature。但是,使用固定、小空间支持的采样kernel(比如双线性kernel);
    iii. 在CNN中使用多个该模组是可行的,在网络逐渐加深的地方放置spatial transformer允许对越来越抽象的表示进行转换,同时也给localisation network提供了更多潜在信息;
    vi. 在前馈网络中应用该模块的限制是并行的spatial transformer数量会限制网络的建模数量。

(6)Experiments

在这里插入图片描述
在这里插入图片描述

(7)个人总结

  • 主要作用是进行图像校正,并且把这一步操作直接整合进网络,进而提升算法性能;
  • 即插即用,无需监督信号即可自适应学习,这点很强;
  • 计算成本小;
  • 任务适配性强;
已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 数字50 设计师:CSDN官方博客 返回首页