Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering 论文阅读

在这里插入图片描述
原文链接:https://arxiv.org/pdf/2311.06503.pdf

摘要

近年来,大语言模型(LLM)的发展引起了学术界和工业界的广泛关注。将LLM部署到真实场景是当前互联网行业的重点方向之一。在本文中,我们提出了一种将LLM应用于特定领域问答(QA)的新颖管道,其中结合了领域知识图(KG),解决了LLM应用的一个重要方向。 作为一个现实世界的应用程序,LLM生成的内容应该是用户友好的,以便为客户提供服务。此外,该模型需要正确利用领域知识来生成可靠的答案。这两个问题是LLM申请的两大难点,单纯的微调并不能充分解决。我们认为这两个需求可以 统一为模型偏好问题,需要与人类保持一致以实现实际应用。因此,我们引入了知识偏好对齐(KnowPAT),它构造了两种偏好集,分别称为风格偏好集和知识偏好集来解决这两个问题。此外,我们设计了一个新的对齐目标,使LLM偏好与人类偏好保持一致,旨在为真实场景的特定领域QA训练更好的LLM,以生成可靠且用户友好的答案。充分的实验和全面的 15 种基线方法表明,文章中的 KnowPAT 是针对LLM的真实场景特定领域 QA 的卓越管道。文章中的代码是开源的,位于 https://github.com/zjukg/KnowPAT。

关键词

大语言模型、知识图、偏好对齐、知识增强问答

1.问题的提出

问题引入:

构建特定领域的 QA 系统
传统的深度学习模型仍然缺乏特定领域的专业知识。
领域知识图(KG) 成为存储和查询特定领域知识的重要媒介。
将 KG 作为外部知识源也是一种可行的方法,这被称为基于 KG 的 QA

使用外部 KG 进行真实场景 QA 的 LLM 应用仍处于探索之中。

引出当前研究的不足与问题

文章中的目标是解决现实应用中的这样一个挑战:如何使用LLM来解决外部知识图支持的真实场景QA问题?

通用流程是检索增强的监督微调,它首先检索问题的相关知识三元组作为参考知识,然后使用包含这些知识的提示对 LLM 进行微调。

实际场景尝试中遇到了很多问题。

  • 首先,在实际应用中,LLM生成的答案需要用户友好,避免生成不适当的内容,例如不友好、低质量的答案。
  • 其次,检索到的知识并不总是有用的,LLM应该获得正确使用知识的能力。

这要求LLM有选择地利用检索到的知识,而不是在没有经过深思熟虑的情况下生成答案。

这两个问题可以统一归结为模型偏好问题。LLM有其生成内容的风格偏好和在提示中选择性使用检索到的知识的知识偏好。作为实际应用,LLM的偏好需要与人的需求保持一致,以达到更好的服务效果。

偏好对齐(PA)
然而,当前 PA 工作面临的场景往往是通用的,目前还没有针对像论文中这样的特定领域的研究。

解决方案

论文中提出了一种新颖的知识偏好对齐(KnowPAT)来解决真实场景 LLM 应用程序的特定领域 QA 任务。 KnowPAT 提出了知识偏好集构建,以合并域 KG 来构建知识偏好数据。
此外,还设计了一个新的调整目标,以根据人类偏好优化LLM。

贡献:

• 该论文是第一个引入LLM 和领域KG 特定领域QA 偏好调整的工作, 这是一种具有实际应用的工业实践。

• 该论文提出了一个知识丰富的偏好调整(Know-PAT)框架,将KG 纳入LLM的偏好调整流程中。该论文平衡了风格和知识偏好的需求,并设计了一个新的培训目标,使LLM与人类偏好保持一致。

• 论文作者进行了全面的实验,通过自动指标和人工评估来验证论文作者方法的有效性,这表明与 15 个现有基线相比,KnowPAT 是一个更

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GCTTTTTT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值