简介:
转述生成可以看作是一种单语翻译,但是不像双语翻译,转述生成并不像机器翻译进行保守几乎重写所有词; 本文作者提出首先识别源句子中需要转述的词,然后在decode时采用负面词约束方式避免输出这些词;
主要方法:
总的来说,为了改善转述生成的重写,首先需要识别给定句子中需要转述的词,接下来用预训练好的转述生成模型进行生成;
方法是在beam search中添加负面约束,使得beam search生成的句子不包括带有那些词的句子;
一. 识别需要被转述的词(Identifification of Word to be Paraphrased):
通过识别源句子中强相关关系的词,组成一个被转述的此表;方法是采用【1】PMI(Point-wise mutual information)对句子中每个词打分
w是单词,z是(x,y),x是源句子类型,y是转述目标类型;
被转述词表得到通过一个阈值判断,如下公式,:
si是源句子,w是词;
PMI分数计算使用跟训练平行的语料得来?
二. 负约束解码(Negative Lexically Constrained Decoding)
约束解码是指添加约束给beam search 去强迫输出特定的词;这里是采用的词约束解码采用的是【4】是DBA是目前速度最快的约束解码算法;
PS:
典型的释义生成任务包括子任务,如文本简化以控制复杂性,把复杂词用更简单的词替换,形式转移以控制形式,语法纠错以控制流畅性,以及 句子压缩以控制句子长度。
【1】:Inducing Lexical Style Properties for Paraphrase and Genre Differentiation.
【2】:Fast Lexically Constrained Decoding with Dynamic Beam Allocation for Neural Machine Translation
【3】:post-editing of machine translation:Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search.
【4】:Fast Lexically Constrained Decoding with Dynamic Beam Allocation for Neural Machine Translation