[计算机视觉论文速递] 2018-05-29

由ypyu创建，最终由small_q更新于2024-01-24 03:31 被浏览 57 用户

Image Classification

《IamNN: Iterative and Adaptive Mobile Neural Network for Efficient Image Classification》

ICLR 2018 Workshop track

The IamNN network

Abstract：深度残差网络（ResNets）近期在深度学习方面取得突破。ResNets的核心思想是在图层之间建立 shortcut，使网络更加深入，同时易于优化，避免梯度消失。这些 shotcut 连接具有有趣的副作用（side-effects），使ResNets的行为与其他典型网络架构不同。在这项工作中，我们使用这些属性来设计基于ResNet但具有参数共享和自适应计算时间的网络。所得到的网络比原始网络小得多，并且可以使计算成本适应输入图像的复杂度。

arXiv：https://arxiv.org/abs/1804.10123

《Progressive Neural Networks for Image Classification》

arXiv 2018

The proposed framework

ProgNet prototype structures

Abstract：现有的深度神经网络的推理/推断结构（inference structures）和计算复杂性一旦被训练，就被固定，并且对于所有测试图像保持相同。然而，实际上，为深度神经网络建立渐进式结构（ progressive structure）是非常需要的，其能够针对具有不同视觉识别复杂度的图像调整其推理过程和复杂度。在这项工作中，我们为深度神经网络开发了一个集成置信分析和决策策略学习的多阶段渐进结构。这个新的框架由一系列网络单元组成，以顺序方式激活，逐渐增加复杂性和视觉识别能力。我们在CIFAR-10和ImageNet数据集上的广泛实验结果表明，所提出的渐进深度神经网络能够获得10倍以上的复杂度可扩展性，同时使用满足不同复杂度的单一网络模型实现最先进的性能，精度要求。

arXiv：https://arxiv.org/abs/1804.09803

注：很有意思的创新~

Video Classification

《Better and Faster: Knowledge Transfer from Multiple Self-supervised Learning Tasks via Graph Distillation for Video Classification》

IJCAI 2018

Architecture of the proposed framework

Abstract：视频表示学习（Video representation learning）是分类任务的一个重要问题。最近，出现了一种被称为自监督学习的无监督范式（unsupervised paradigm），它通过解决辅助任务探索了海量数据中蕴含的固有监督信号，用于特征学习。然而，当扩展到视频分类时，这方面的现有方法受到两个限制。首先，他们只关注单个任务，而忽视不同任务特定功能之间的互补性，从而导致视频表现不理想。其次，高计算和内存成本阻碍了它们在现实世界中的应用。在本文中，我们提出了一个基于图的 distillation 框架来解决这些问题：（1）我们提出了logits图和表示图来传递来自多个自我监督任务的知识，前者通过解决多个自我监督任务来提取分类器级知识，分配联合匹配问题，后者从成对集合表示中提取内部特征知识，应对不同特征之间异质性的挑战; （2）采用 teacher-student 框架的建议可以显著地减少 teachers从教学中学到的冗余，从而形成一个轻量级的 student模型，更有效地解决分类任务。在3个视频数据集上的实验结果验证了我们的提议不仅有助于学习更好的视频表示，还可以压缩模型以加快推断速度。

arXiv：https://arxiv.org/abs/1804.10069

Semantic Segmentation

《Fully Convolutional Adaptation Networks for Semantic Segmentation》

CVPR 2018, Rank 1 in Segmentation Track of Visual Domain Adaptation Challenge 2017

Fully Convolutional Adaptation Networks (FCAN) architecture

Examples of semantic segmentation results in Cityscapes

Abstract：深度神经网络的最新进展令人信服地证明了在大型数据集上学习视觉模型的高能力。尽管如此，收集专家标记的数据集尤其是像素级注释（ pixel-level）是一个代价非常高的过程。一个吸引人的选择是呈现合成数据（例如电脑游戏）并自动生成 ground truth。然而，简单地应用在合成图像上学习的模型可能导致由于域偏移（domain shift）导致的真实图像上的高泛化误差。在本文中，我们从视觉外观水平和表示水平域适应（visual appearance-level and representation-level domain adaptation）的角度来解决这个问题。前者将源域图像调整为显示为从目标域中的“样式”中绘制，后者尝试学习域不变表示。具体来说，我们提出了完全卷积自适应网络（FCAN），这是一种结合了外观自适应网络（AAN）和表示自适应网络（RAN）的新型深度语义分割体系结构。AAN在像素空间中学习从一个域到另一个域的转换，并且RAN在对抗学习方式下被优化以最大程度地愚弄具有所学习的源和目标表示的域鉴别器。从GTA5（游戏视频）到城市风景（城市街道场景）的语义分割转换进行了大量实验，并且我们的建议与最先进的无监督自适应技术进行比较时取得了优异的结果。更为显著的是，我们获得了一项新纪录：在无人监督的环境下，BDDS（驾驶摄像头视频）的47.5％的mIoU。

arXiv：https://arxiv.org/abs/1804.08286

注：提出了Fully Convolutional Adaptation Networks (FCAN）网络（FCN的改进版），其结合了Appearance Adaptation Networks (AAN) and Representation Adaptation Networks (RAN)