论文阅读:Negative Lexically Constrained Decoding for Paraphrase Generation

本文探讨了转述生成技术的改进方法,首先通过PMI评分识别需要转述的词,然后采用快速负约束解码算法,确保生成的句子不包含特定词汇,提升转述质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介:

       转述生成可以看作是一种单语翻译,但是不像双语翻译,转述生成并不像机器翻译进行保守几乎重写所有词; 本文作者提出首先识别源句子中需要转述的词,然后在decode时采用负面词约束方式避免输出这些词;         

 

主要方法:

         总的来说,为了改善转述生成的重写,首先需要识别给定句子中需要转述的词,接下来用预训练好的转述生成模型进行生成;

方法是在beam search中添加负面约束,使得beam search生成的句子不包括带有那些词的句子;

         一. 识别需要被转述的词(Identifification of Word to be Paraphrased):

              通过识别源句子中强相关关系的词,组成一个被转述的此表;方法是采用【1】PMIPoint-wise mutual information)对句子中每个词打分

                                        

                       w是单词,z是(x,y),x是源句子类型,y是转述目标类型;

              被转述词表得到通过一个阈值判断,如下公式,:

                                                 

                        si是源句子,w是词;

                PMI分数计算使用跟训练平行的语料得来?

                  

 

           二. 负约束解码(Negative Lexically Constrained Decoding

               约束解码是指添加约束给beam search  去强迫输出特定的词;这里是采用的词约束解码采用的是【4】是DBA是目前速度最快的约束解码算法;

 

 

 

PS:

     典型的释义生成任务包括子任务,如文本简化以控制复杂性,把复杂词用更简单的词替换,形式转移以控制形式,语法纠错以控制流畅性,以及  句子压缩以控制句子长度。

     【1】:Inducing Lexical Style Properties for Paraphrase and Genre Differentiation.

     【2】:Fast Lexically Constrained Decoding with Dynamic Beam Allocation  for Neural Machine Translation

     【3】:post-editing of machine translation:Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search.

     【4】:Fast Lexically Constrained Decoding with Dynamic Beam Allocation for Neural Machine Translation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值