LITRANSPROQA: An LLM-based LITerary TRANSlation Evaluation Metric with PROfessional Question

在这里插入图片描述

文章主要内容总结

本文聚焦于文学翻译评估领域,针对现有评估指标过度关注机械准确性、忽视艺术性表达及文化真实性的问题,提出了一种基于大语言模型(LLM)的新型评估框架 LITRANSPROQA。该框架通过整合专业文学译者和研究者的见解,设计了一套针对文学翻译核心要素(如文学手法、文化理解、语气等)的问答体系,无需参考译文即可评估翻译质量。

关键实验与结果
  • 数据集:使用LITEVAL-CORPUS、LITERARYTRAN、PAR3-ANNOTATED等多语言文学翻译数据集,涵盖德-英、英-中、法-英等语言对,包含专业人工翻译和机器翻译结果。
  • 对比方法
    • 微调XCOMET-XL:在文学任务上进行微调,但性能提升有限,且存在计算成本高、稳定性不足的问题。
    • 现有SOTA指标:如GEMBA-MQM、XCOMET-XL等,在文学翻译评估中普遍低估人工翻译质量,与人类判断的相关性
### 基于LLM的知识图谱构建框架 知识图谱是一种用于表示实体及其关系的数据结构,能够有效支持语义搜索、推荐系统以及自然语言处理中的多种应用。基于大型语言模型LLM)的知识图谱构建通常涉及三个核心步骤:提取(Extract)、定义(Define)和规范化(Canonicalize)。以下是这些步骤的具体描述: #### 提取(Extract) 在这一阶段,主要目标是从非结构化数据源中识别并抽取潜在的实体和关系。这可以通过以下方法实现: - **命名实体识别 (NER)**:利用预训练的语言模型来检测文本中的实体提及[^1]。 - **关系抽取**:通过分析句子语法结构或依赖树,确定实体之间的关联性[^2]。 ```python import spacy nlp = spacy.load("en_core_web_trf") def extract_entities(text): doc = nlp(text) entities = [(ent.text, ent.label_) for ent in doc.ents] return entities ``` 上述代码展示了如何使用SpaCy库加载一个强大的NLP管道来进行基本的实体提取操作[^3]。 #### 定义(Define) 此过程旨在为所提取到的信息赋予更精确的意义。具体而言,它包括以下几个方面的工作: - **类型分配**:将每个发现的对象映射至已知类别体系下的某个特定标签下[^4]。 - **属性填充**:收集关于个体实例的各种特征描述,并将其作为节点附加信息存储起来[^5]。 对于复杂场景可能还需要借助外部本体资源或者领域专家指导完成更加细致入微地分类界定工作。 #### 规范化(Canonicalize) 最后一步则是确保整个网络内部一致性良好无误。这意味着要解决同名异物问题以及其他形式上的歧义情况。常用技术手段有: - **聚类算法**:把相似但表述不同的条目合并成单一代表项[^6]。 - **消解策略**:采用全局唯一标识符UID等方式消除重复记录带来的干扰影响[^7]。 综上所述,在现代AI技术支持之下,我们可以高效自动化地建立起高质量的知识图表作品出来供后续深入挖掘研究之用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值