算法学习 | ANN前沿算法梳理

深度学习
神经网络
标签: #<Tag:0x00007f8c742bb170> #<Tag:0x00007f8c742bafb8>

(sszy) #1

深度学习领域的技术进展总是快速得令人咋舌,CV、NLP等领域的算法不断推陈出新,不是每天接触这些领域的前沿工作者很难及时get到最新的算法,但及时的充电时必须的。本文就是笔者在梳理近年来深度学习领域前沿算法时的学习笔记,主要想解决两个问题:

  • 从哪里及时获取算法进展相关信息?
  • 近年来有哪些最前沿的算法出现?

Where to find?

论文合集

  1. PaperWeekly,社区活跃,有标签,方便
  2. Arxiv Sanity,社区,比较全,无标签
  3. State of the Art. ai,社区,有标签,最近活跃度不够

以上大概都是搬运arxiv预印本网站上的论文,推荐顺序依次下降

媒体类

  1. Google Deepmind, research
  2. MIT tech review - artificial intelligence,有些文章需要订阅,可关注公众号DeepTech深科技
  3. Community: reddit ml板块,如一些paper sharing帖子
  4. 公众号类:新智元、infoQ、机器之心等

What are the cutting-edge algorithms?

个人能力有限,尽力整理了一些前沿算法,欢迎大家交流~

上图是根据不同领域整理的算法的不完整合集,红色标记是领域内breaking算法,黄色标记是现今性能领先的算法。

以下是上述算法的具体梳理:

1 图像识别

1.1 AlexNet,2012
五个卷积层和三个全连接层,首次证明了在GPU上训练的深度神经网络可以将图像识别任务提升到一个新的水平。
论文链接

1.2 VGGNet,2014
可以看成是加深版本的AlexNet,都是由卷积层、全连接层两大部分构成。VGGNet探索了卷积神经网络的深度与其性能之间的关系,成功地构筑了16~19层深的卷积神经网络,证明了增加网络的深度能够在一定程度上影响网络最终的性能
论文链接

1.3 GoogLeNet系列,inception v1到v4,2014-2016
经典模型。为了解决卷积神经网络过拟合和消耗过多计算资源的问题,提出将全连接甚至卷积转化为稀疏连接,然后对稀疏矩阵进行聚类为密集矩阵以提升性能。
论文链接
相关链接

1.4 ResNet深度残差网络,2015
解决CNN中的梯度消失/梯度爆炸问题,将输入从卷积层的每个块之前添加到输出中。残差网络背后的启示是,理论上神经网络绝不应该分解为更多的层,因为在最坏的情况下,可以将其他层简单地设置为恒等映射。
论文链接
相关链接

1.5 dilated convolution空洞卷积,2017
在保持ResNet 参数量不变、每个阶段的卷积层视野不变的前提下,靠后的卷积层也可保持较大的 feature maps 尺寸从而有利于对小目标的检测,提高模型整体性能。
论文链接

1.6 Google Xception,2017
inception系列的升级版,并行group改成了串行group。
论文链接
相关链接

1.7 DenseNet,2018
ResNet升级,从ResNet“短路连接”(shortcuts,skip connection)到“密集连接”(dense connection)。
论文链接
相关链接

1.8 EfficientNet,2019
卷积神经网络通常都是先在固定资源预算下开发设计,然后如果资源有多余的话再将模型结构放大以便获得更好的精度。在本篇论文中,我们系统地研究了模型缩放并且仔细验证了网络深度、宽度和分辨率之间的平衡可以导致更好的性能表现。
论文链接
相关链接

1.9 BigTransfer,2019
Google最新,迁移学习,可以作为任意视觉任务起点的预训练ResNet,被成为CV届的BERT。
论文链接
相关链接

2 图像处理

2.1 FPN,2016
将骨干网络最终特征层和中间特征层的多个尺度的特征以类似金字塔的形式融合在一起。最终的特征可以兼顾两个特点——指向收敛目标的特征准确、特征语义信息丰富。
论文链接

2.2 Yolo三部曲,2013-2018
目标检测网络,速度快。
相关链接

2.3 Mask R-CNN,2017
Mask R-CNN模型是一个简单、灵活、通用的对象实例分割框架。它能够有效地检测图像中的对象,并为每个实例生成高质量的分割掩码,还可以通过增加不同的分支完成多种任务。
论文链接

2.4 PointRend,2019
Mask R-CNN改进,将图像分割视为一个渲染问题。基于迭代细分算法,在自适应选择的位置执行基于点的分割预测。
论文链接

3 RNN相关

3.1 经典模型:LSTM和GRU
RNN用于处理序列数据,但会产生梯度消失问题。LSTM/GRU引入门单元,选择性控制,缓解梯度消失问题。
平台上有相关介绍

3.2 Quasi-RNN,2016
神经单元的更新。结合了RNN和CNN的特性:

  • 像CNN一样,基于时间步维度和minibatch维度上进行并行计算,确保对序列数据有高吞吐量和良好的长度缩放性;
  • 像RNN一样,允许输出是依赖于序列中之前的有序元素基础上得到的,即RNN本身的过去时间依赖性

论文链接

3.3 SRU,2017
2017神经单元的更新,简单 快速 并更具解释性的循环神经网络。
论文链接
相关链接

3.4 IndRNN独立循环神经网络,2018

  • 使用ReLU作为激活函数。
  • 独立权重

论文链接
相关链接

4 GAN及其变体

4.1 GAN,2014
对抗生成网络开山之作:训练处于对抗博弈中。
论文链接

4.2 综述,2018
代表性变体:

  • InfoGAN
  • ConditionalGANs(cGANs)
  • CycleGAN
  • f-GAN
  • IntegralProbabilityMetrics(IPMs)
  • LossSensitiveGAN(LS-GAN)

论文链接
相关链接

5 DRL深度强化学习

5.1 DQN,2013
第一个深度增强学习算法,直接从高维的感知输入中学习控制策略。模型是一个卷积神经网络,利用 Q-learning的一个变种来进行训练,输入是原始像素,输出是预测将来的奖励的 value function。
平台相关介绍
论文链接

5.2 A3C(Asynchronous Advantage Actor Critic),2015
A3C算法完全使用了Actor-Critic框架,并且引入了异步训练的思想:好了就就奖励,坏了就惩罚。
论文链接

5.3 UNREAL(UNsupervised REinforcement and Auxiliary Learning),2016
在A3C算法的基础上对性能和速度进行进一步提升,通过训练多个面向同一个最终目标的任务来提升行动网络的表达能力和水平,符合人类的学习方式。
论文链接

5.4 颠倒RL,2019
new idea,颠倒强化学习,用监督学习解决RL问题,不预测奖励,将奖励作为输入。
相关链接

5.5 RL综述,2018
论文链接

6 注意力模型

6.1 Transformer,2017
不同于CNN和RNN,以注意力机制为本
后出现变体Weighted Transformer 以及 Universal Transformer。
论文链接
相关链接

7 NLP

7.1 BERT,2018
Transformer的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调。
论文链接

7.2 XLM-R,2019
Facebook最新语言模型,优于单语种BERT。
相关链接