G-Research：ICML 2022论文推荐

由small_q创建，最终由small_q更新于2022-10-11 02:31 被浏览 37 用户

摘要

G-Resarch作为ICML 2022的钻石赞助商，其研究人员和工程师参加了今年在美国巴尔的摩举行的会议。研究人员收集了他们最喜欢的2022年ICML论文并推荐给大家。

首先是来自机器学习工程师Casey Haaland的推荐，我们可以发现，机器学习工程师关注的论文更偏模型的结构及训练方法优化。

1. Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model Classes and Cone Decompositions

Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model Classes and Cone Decompositions

Aaron Mishkin, Arda Sahiner, Mert Pilanci

神经网络模型的训练目标一般是非凸的，实践中一般使用迭代的方式去寻找最优解（比如SGD）。这就会带来一个显著的问题，每次训练出来的模型是不一样的，有时候甚至会有很大的差别。

本论文基于这样一个事实：一个使用ReLu激活函数的两层前向神经网络可以被表示为一个带有限制条件的凸优化问题。这就带来了以下结果：不存在能够使用每次训练出现不同结果的局部最优解；能够使用很多复杂的凸优化求解器。

作者提出了一种增强的拉格朗日和一种训练网络收敛速度显著快于使用SGD的非凸公式的近端方法。此外，由于问题是凸性的，有更严格的停止标准来确定训练何时收敛，并且在训练过程中需要调优的超参数更少（例如批次大小，学习率）。

2. Transformer Quality in Linear Time

Transformer Quality in Linear Time

Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le

今年有许多论文旨在降低自我注意机制的训练时间和内存，这些注意力机制是很多大型语言模型的核心。注意力模块用于向量序列（例如句子的单词嵌入），需要比原始语句平方级的时间和内存。

本文作者提出了一种基于单头注意力的快速线性注意力机制（FLASH），该方法能够在GPU显存受限的情况下训练较长的句子。他们提出了一种线性注意机制，使用查询、键和值矩阵的简单乘积，但使用矩阵乘法的结合律先做键-值矩阵乘积（嵌入维度是二次的），从而避免了查询-键矩阵的计算（序列长度是二次的）。

这篇论文很有趣，因为它颠覆了注意力机制最初的出发点。注意力被认为是一种“软查找”。与其在字典中查找查询，将其与键匹配并返回相应的值，注意力背后的思想是允许查询与许多键匹配，然后根据对应键与查询的相似程度返回值的加权平均值。这种加权平均导致使用softmax，并使注意力难以扩展到更大的序列长度。

作者证明，尽管移除了注意力背后的良好直觉动机，他们仍然可以在更少的时间、更少的内存中获得类似的结果。

图片{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

3. Quant-BnB: A Scalable Branch-and-Bound Method for Optimal Decision Trees with Continuous Features

Quant-BnB: A Scalable Branch-and-Bound Method for Optimal Decision Trees with Continuous Features

Rahul Mazumder, Xiang Meng, Haoyue Wang

回归树是机器学习社区中最受欢迎的方法之一，像XGBoost和LightGBM这样的库经常在Kaggle比赛中占据榜首。对于回归树的拟合通常是一个很棘手的问题，特别是对于较小的数据集。因此，所有现有的库都求助于贪婪算法，该算法在树中的给定节点上选择次优分割。

Quant-BnB的作者提出了一种分支界定的方法，用于在更易于处理的时间内为连续特征空间计算深度为2的全局最优树。虽然深度2的树在实践中很有用，特别是在可解释性很重要或数据非常有限的领域，但在许多实际环境中，树被训练到更深的深度。

关键是要认识到树中的任何节点都是（子）树的根，事实上，贪婪解只是定量界定分支的一种特例。你可以找到深度为1结点在根的最优树。而不是使用贪婪算法在每个节点上生长一个深度为1的树，量化bnb可以用这个节点在根上找到深度为2的最佳树。

作者指出，Quant-BnB可以扩展到更深层的树，但如果超出深度3，即使是中等大小的数据，问题也会很快变得难以解决。

4. Monarch: Expressive Structured Matrices for Efficient and Accurate Training

Monarch: Expressive Structured Matrices for Efficient and Accurate Training

Tri Dao, Beidi Chen, Nimit Sohoni, Arjun Desai, Michael Poli, Jessica Grogan, Alexander Liu, Aniruddh Rao, Atri Rudra, Christopher Ré

训练神经网络的大部分时间都花在用密集矩阵进行线性代数计算上，如矩阵乘法、向量加法和求解线性方程。本文的作者建议用他们所称的“君主矩阵”替换神经网络中常见的密集权重矩阵。它们本质上是块对角线的矩阵，它们的乘积可以重构常见的变换，如Toeplitz矩阵和Hadamard矩阵。

图片{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

直觉上，这种低秩稀疏分解或“君主参数化”将导致更少的浮点运算（flop）。此外，通过利用NVIDIA高效的批处理矩阵乘法（bmm）例程，参数化中每个矩阵的块对角结构非常适合GPU并行。

作者提出了三种不同的使用Monarch矩阵的方法。

1、首先是端到端训练。模型的密集权重矩阵被简单地替换为君主矩阵的乘积，训练照常进行（0元素保持不变）。

2、第二种方法是稀疏到密集训练，将密集的权重替换为Monarch矩阵，继续训练直到接近收敛，然后将Monarch矩阵替换为它们的乘积，继续训练这些密集矩阵直到收敛。

3、最后一种方法是密集到稀疏训练，将预训练模型的密集权重投影到最近的Monarch矩阵（一个非凸的，但易于处理的问题），然后使用新的稀疏权重进行微调。

作者表明，与传统的密集矩阵训练相比，这三种方法都可以加快训练时间。

接下来是来自多位量化研究员的论文推荐。

5. Domain Adaptation for Time Series Forecasting via Attention Sharing

Domain Adaptation for Time Series Forecasting via Attention Sharing

Xiaoyong Jin, Youngsuk Park, Danielle C. Maddix, Hao Wang, Yuyang Wang

作者给出了一个具有丰富数据样本的源数据集和一个具有有限数量样本的目标数据集，其各自的目标可能具有不同的表示形式，并利用深度神经网络解决时间序列预测问题。

正如作者所论证的，这种设置具有挑战性，因为特定领域的预测值不受固定词汇表的约束，而且许多特定领域的混杂因素无法在主预训练模型中编码。他们提出了一个新的领域适应框架(DAF)，其主要创新是通过一个共享注意力模块联合训练两个不同的模型。更精确地说，他们的解决方案使用一个序列生成器来处理来自每个域的时间序列。

每个序列生成器由编码器、注意模块和解码器组成。由于每个域提供来自不同空间的具有不同模式的数据，因此它们使编码器和解码器由各自的域私有。核心注意模块由两个域共享，用于适应。除了共享注意模块，他们的关键创新是引入了一个共享鉴别器，使共享注意模块的键和查询是域不变的。鉴别器的目的是对键-查询对的域进行分类，它以对抗的方式进行训练，同时使用一个旨在混淆鉴别器的生成器。作者通过大量的数值结果显示了这种共享注意力模块的好处。

这种体系结构在概念上非常简单，而且用途广泛，可以应用于许多实际问题。

6. Hierarchical Shrinkage: Improving the Accuracy and Interpretability of Tree-Based Methods

Hierarchical Shrinkage: Improving the Accuracy and Interpretability of Tree-Based Methods

Abhineet Agarwal, Yan Shuo Tan, Omer Ronen, Chandan Singh, Bin Yu

本文为基于树的模型提出了一种创新的、事后的正则化算法。他们的关键见解集中在将树视为线性模型，其中节点对应于学习的基础。它与现有的仅以叶节点为基础的基于叶的收缩（LBS）非常相似。然而，论文表明，在广泛的数据集上，HS比现有的方法（包括LBS）具有更好的泛化能力。这主要是由急剧减少的模型方差驱动的，这反过来也给出了更有意义的SHAP值。