基于注意力机制优化的生成式文档摘要模型
本文收录于EMNLP 2019,oral 短文。 背景 在互联网时代,各个领域场景产生越来越多的文本数据,文本摘要作为文本“降维”处理的重要手段,旨在将文本或者文本集合转换成包含关键信息的简短摘要。该任务方法主要分为两大类:抽取式摘要和生成式摘要。抽取式摘要方法从源文档中抽取关键句或者关键词组成摘要,摘要内容全部来自原文,这种方法比较简单直接,但是做法和人类总结概括文章的方法技巧相差甚远,同时也面临coherence等问题。随着sequence2sequence模型的出现和发展,生成式摘要模型相关研究也吸引了众多学者的目光。生成式摘要模型顾名思义,就是从源文档生成摘要,摘要中的词可能在原文中并不存在。这一大类方法更接近于人类的摘要方法,得到的摘要一般较为通顺,但是也存在诸多问题,如repetition、saliency、incorrect fact等。当然文本生成任务本身就具有较大难度,我们期待未来有一天计算机能够像人类一样会写作表达,可以写出高质量的自然语言文本。 本文聚焦于优化摘要模型中的注意力机制,注意力机制最早是应用于图像领域,大概是九几年就提出来的思想。在2014年,Google Mind团队发表的《Recurrent Models of Visual Attention》[1]一文使得注意力机制开始火了起来,该论文提出在RNN模型上使用Attention机制来进行图像分类,结果取得了很好的性能。随后,在Bahdanau等人发表论文《Neural Machine Translation by Jointly Learning to Align and […]