论文推荐(持续更新中。。。)

由iquant创建，最终由iquant更新于2021-08-12 07:18 被浏览 23 用户

本文是记录推荐除去论文笔记之外，小伙伴们日常论文阅读中认为有亮点值得推荐的论文。有兴趣的小伙伴可以按照列表进行选择阅读。

6月3日更新

《Diversity driven Attention Model for Query-based Abstractive Summarization》

选自2017 ACL。该论文提出了一种基于用户查询的生成式摘要模型，用以从文档中获取用户想要的信息。该模型基于seq2seq结构，在解码时同时使用了在query与文档上的attention，用以摘要的生成。此外，该文章的一大亮点是采用了正交化上下文向量(context vector)的方法减轻了生成式摘要中生成重复词的问题。最后，本文提出了一个新的数据集(来自debatepedia)，并在该数据集上取得了较好的实验结果。

《Recurrent Additive Networks》

该论文提出了一种新的Gated RNN：循环加法网络(RAN)。相比于LSTM与GRU，RAN在更新cell state时引入了更少的非线性，仅使用线性方式来更新cell state。本文通过在语言模型上的实验，验证了RAN使用了更简单的结构得到了比LSTM与GRU更好的结果。

《selective Encoding for Abstractive Sentence Summarization》

这篇论文是对之前著名的端到端基于attention的摘要生成模型ABS进行的改进，加入了选择性编码，通过对encoder过程二次编码达到了更好的效果。

《CANE: Context-Aware Network Embedding for Relation Modeling》

提出了上下文敏感的网络表示的概念，利用mutual attention技术为每个节点根据交互的邻居的不同学习不同的表示。

《Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning》

本文主要介绍了通过强化学习框架来提高信息抽取的精度，对整个框架的搭建过程以及最后的实验效果介绍很详细，和传统的信息抽取做了对比，对各个优劣一目了然，为信息抽取提供了新方案。

《Learning to Generate Reviews and Discovering Sentiment》

OpenAI发表的的一篇基于无监督训练，可直接调控生成文本情感的论文。模型是在一个有 8200 万条亚马逊评论的语料库上训练了一个有 4096 个单元的乘法 LSTM（multiplicative LSTM），以用来预测一段文本中的下一个字符。论文最突出的地方是发现一个情感神经元（sentiment neuron），能很好的预测情感值，只要修改情感神经元的值就能控制生成文本的情感。这篇论文对于可控情感文本的生成具有很强的研究参考价值。

---------------------------------------------------------------------

5月23日更新

《Learning Structured Output Representation using Deep Conditional Generative Models》

作者在VAE的基础上提出conditional variational auto-encoder模型，提高了VAE在生成上的可控性，是CVAE模型值得参考的重要论文。

《Attention-over-Attention Neural Networks for Reading Comprehension》

ACL2017Paper，本文是对attention机制进行改进用在了阅读理解上，提出了层叠式attention，对阅读理解中问题进行了更细致的研究。

《Learning to Skim Text》

基于RNN，提出了一种略读文本的模型(对文本进行跳跃读取)，在保证精度的同时，大幅提高了文本的阅读速度。

《Neural Relation Extraction with Multi-lingual Attention》

将sentence-level attention 扩展到了多语言下的multi-lingual attention,提高了多语言下的关系抽取

《Embedding Words and Sentences via Character n-grams》

论文提出了一种新的基于字符向量对词与句子进行向量表示的方法，不是使用先前的相加、CNN、RNN模型，而是使用新的模型对词或句子进行表示，如下

《Convolutional Sequence to Sequence Learning》

Facebook AI Lab最新的一篇paper。区别于现有的基于RNN的seq2seq，本文提出了一个完全依赖于CNN的seq2seq模型，并且对decoder中基于CNN的attention进行了改进。在MT上的应用精度超过了Google Translation，并且速度提高了9倍。

-----------------------------------------------------------------------------

5月16日更新

《Context-Dependent Word Representation for Neural Machine Translation》

根据上下文生成Mask，mask出新的词向量，用一种比较深度学习的方法处理词的多语义问题。

《Structured prediction models for RNN based sequence labeling in clinical text》

序列标注在命名实体识别和信息抽取领域中有广泛的应用，在临床领域，序列标注的一个主要应用包括从电子病例叙述中提取医疗实体，如药物，适应症和副作用。这一领域的序列标注提出了自己的挑战和目标。本文的思路是LSTM提取特征接着加上一层CRF层，通过维特比译码给出最优解。使用这些方法进行结构化预测，以便改进各种医疗实体的精确短语检测。

《Joint Event Extraction via Recurrent Neural Networks》

该论文出自NAACL-HLT 2016，主要利用双向RNN同时解决事件块识别和事件参数识别问题，在联合模型中系统地加入memory feature，解决了传统事件抽取所采用的pipeline方式所带来的错误累积问题，获得先进性能。

《Incremental Global Event Extraction》

COLING2016，该篇论文是处理TAC评测事件抽取的一篇论文，主要是在事件抽取中采用joint的半马尔科夫模型实现的，用传统方法在评测取得了不错的效果。

《Joint Inference for Event Coreference Resolution》

传统的事件指代消解大部分都是基于pipeline的，这种处理方式存在两个问题：一是pipeline中后一步需要以前一步的输出作为输入，而每一步都存在一定的误差，这样做无疑会引起误差积累；二是pipeline中的不同步骤之间本身就存在一定的依赖关系，使用pipeline进行指代消解，就需要在一定程度上忽略不同步骤的依赖关系。使用了马尔可夫逻辑网对这些特征进行联合处理，并用于最终的指代消解。

《Siamese Recurrent Architectures for Learning Sentence Similarity 》

本文提出了一种使用孪生BILSTM计算句子相似度的模型，效果良好。

《A DeepReinforced Model for Abstractive Summarization》

基于经典的单文档摘要模型：encoder-decoder模型，本文提出了一种Neural Intra-attention Model，并在此基础上，使用了一种新的目标函数。这种新的目标函数结合了传统的期望交叉熵损失函数以及增强学习中Policy Learning所采用的rewards函数，并使用增强学习(本文中使用自我批评式policy gradient算法进行训练)解决了传统序列模型中的误差积累问题(经典的处理方式是beamsearch)。在CNN/Daily Mail数据集与New York Times数据集上，本文中使用的模型都取得了一定的性能提升。

《Semi-supervised sequence tagging with bidirectional language models》

这篇来自ACL2017的论文关注的是少量标注数据下NER任务如何取得state-of-the-art。相比传统主流的RNN-CRF模型，这篇论文的创新点是加入预训练的LM embedding。先使用海量无标注语料预训练双向RNN语言模型，然后使用预训练好的语言模型获取当前标注词的Language model embedding(LM embedding),将这个向量作为特征加入到原始的双向RNN-CRF模型中。

《Question Answering on Knowledge Bases and Text using Universal Schema and Memory Networks》

该文的点在于：从结构化的知识库和非结构化文本的结合中推理答案，通过将它们放在一个共同的embedded space当中，将其扩展到自然语言QA的应用当中，采用记忆网络（memory network）来结合文本和KB。

---------------------------------------------------------------------

5月10更新《Key-Value Memory Networks for Directly Reading Documents》

本篇论文收录在ACL2016，主要亮点在于使用Knowledge Bases (KBs)来辅助QA，用KBs来做QA有效但有很多限制，传统的KBs数据类似Freebase的三元组，该文提出了一个Key-Value Memory Networks，将KBs的信息encode进神经网络中做QA问题。

《Attention-over-Attention Neural Networks for Reading Comprehension》

本文解决的是QA问题的Cloze-style，就是中文中常说的完形填空的问题，通过给定Query和Document以及candidate，从中筛选出最佳答案。本文的创新点在于相比于这类问题传统的解决方法（query到document的attention），还考虑了document到query的attention，这个模型也在数据集（CNN News , CBTest）上,在未预训练词向量的前提下取得了较好的效果。

《Event Nugget Detection with Forward-Backward Recurrent NeuralNetworks 》

该论文是2016ACL短文，首次尝试用RNN解决事件块检测问题。传统的事件检测方法严重依赖于丰富的语义特征，传统方法只关注单一的符号事件mention，而在实践中，事件也可以是短语。而本文当中利用FBRNNs检测事件时既可以是单一符号也可以是短语。

《Generating Long and Diverse Responses with Neural ConversationModels》

问题：开放领域聊天机器人生成更丰富回答。本文对之前的基于attention的端到端模型encoder部分进行修改，创新为引入部分target到输入，提出新的sample-beamsearch来decoder。

《A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING》

以往句子表示都是使用一维向量，这篇论文提出一种新的句子表示模型，使用2维矩阵对句子表示，矩阵的每一行都表示句子的某一方面的信息，从而使得句子的信息得到更加丰富的表达。

《A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues》

论文首先提出，对话模型至少应该分成两层：utterance 和 words。Words的编码是针对每一句话，而utterance关注多轮对话，更深层次的如对话者的意图，说话风格，情感等；论文提出的Latent Variable Hierarchical Recurrent Encoder-Decoder(VHRED)模型，在encoder-RNN、context-RNN、decoder-RNN的基础上，又引入了一个latent variable,用来表示utterance层次的一些信息，使得对话模型具有两层的结构。

《A Conditional Variational Framework for Dialog Generation》

和前一篇论文相似，这篇论文进一步探讨了基于不同给定属性标签（论文实验的是三种情感：positive、negative和neutral），生成不同的response的对话系统。模型框架由两个不同的status RNN，一个latent variable。两个status RNN分别对两个对话者进行编码，编码后拼接成context vector; latent variable是基于属性标签和context vector生成。Context vector 和latent variable 用于decoding。

《A Joint Model for Entity Analysis Coreference Typing and Linking》

本文认为在处理命名实体一系列问题上，识别、共现、链指等任务相互之间可以提供信息。联合建模有利于模型的效果提升。本文即建立了一个这样联合模型，并取得了比较大的提升。

《Learning to Generate Reviews and Discovering Sentiment》

论文评论：OpenAI新研究发现无监督情感神经元：可直接调控生成文本的情感

《Deep Nets Don’t Learn via Memorization》

论文评论：https://openreview.net/pdf?id=rJv6ZgHYg

《Event Detection and Co-reference with Minimal Supervision》

该论文使用了一种弱监督的算法解决了事件检测与共指问题。事件共指问题可以看作是一种事件之间的相似度计算问题，而在该文中，事件检测问题也被看作是一种相似度检测问题。对于ACE或rich ERE划分的所有事件类型，使用每个类型中的几个实例作为该类型事件的向量，然后计算新事件向量与每个类型事件向量之间的相似度，根据这一相似度对事件进行判断。该文的另一个特点在于事件特征的选择，在将事件表示为向量的过程中，使用了Freebase作为特征来对事件进行表示。

《A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data 》

这篇论文主要讲了怎样提高未标注数据使用监督算法时的性能，通过详细的数学推导进行理论支持，实验对比效果显著。

《Fast and Accurate Neural Word Segmentation for Chinese 》

最新分词论文结合词和字符的embedding 在分词效率和准确度上都有良好的表现。更正一下：前面的这篇论文给的是《Neural Word Segmentation Learning for Chinese》的链接。两者是相同作者所发。后者是ACL2016的paper。