文章主要内容总结
本文聚焦于文学翻译评估领域,针对现有评估指标过度关注机械准确性、忽视艺术性表达及文化真实性的问题,提出了一种基于大语言模型(LLM)的新型评估框架 LITRANSPROQA。该框架通过整合专业文学译者和研究者的见解,设计了一套针对文学翻译核心要素(如文学手法、文化理解、语气等)的问答体系,无需参考译文即可评估翻译质量。
关键实验与结果
- 数据集:使用LITEVAL-CORPUS、LITERARYTRAN、PAR3-ANNOTATED等多语言文学翻译数据集,涵盖德-英、英-中、法-英等语言对,包含专业人工翻译和机器翻译结果。
- 对比方法:
- 微调XCOMET-XL:在文学任务上进行微调,但性能提升有限,且存在计算成本高、稳定性不足的问题。
- 现有SOTA指标:如GEMBA-MQM、XCOMET-XL等,在文学翻译评估中普遍低估人工翻译质量,与人类判断的相关性