研报&论文

基于深度卷积神经网络的图像网络分类

由qxiao创建,最终由qxiao 被浏览 66 用户

作者:Alex Krizhevsky、Ilya Sutskever 、Geoffrey E. Hinton

多伦多大学

发表时间:2012年

摘要

我们训练了一个大型深度卷积神经网络,将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分类为1000个不同类别。在测试数据上,我们取得了top-1和top-5的错误率分别为37.5%和17.0%,大大优于之前的国家技术水平。该神经网络有6000万个参数和65万个神经元,由5个卷积层组成,其中一些卷积层后面是最大池层,以及3个完全连接层,最终具有1000路softmax。为了使训练更快,我们使用一个非常高效的GPU实现卷积运算。为了减少全连通层的过拟合,我们采用了最近发展的正则化方法“dropout”,该方法被证明是非常有效的。我们还在ILSVRC-2012竞赛中加入了该模型的一个变体,并获得了前5名的15.3%的测试错误率,而第二好的参赛作品的错误率为26.2%。

研报


/wiki/static/upload/ab/ab50ccb9-665f-46f4-9cfa-38248bf08c5a.pdf

\

结论

我们的结果表明,一个大型的,深度卷积神经网络能够在一个高度具有挑战性的数据集上实现破纪录的结果,使用纯粹的监督学习。值得注意的是,如果去掉单个卷积层,我们的网络性能就会下降。例如,删除任何中间层都会导致网络前1位的性能损失约2%。所以深度对于我们的结果非常重要。 为了简化我们的实验,我们没有使用任何无监督的预训练,即使我们有预期它会有帮助,特别是如果我们有足够的计算能力来显著地增加 网络的大小,而不获得相应的标签数据量的增加。

到目前为止,我们的结果有所改善,因为我们扩大了我们的网络,训练了它更长的时间,但我们仍然有许多数量级,以匹配人类视觉系统的颞下路径。最终,我们希望在视频序列上使用非常大和深度的卷积网络,其中时间结构提供了非常有用的信息,而这些信息在静态图像中是缺失的或不太明显的。

{link}