Fun Papers[4] WWW‘25 基于DPO的推荐系统去偏

SPRec: Self-Play to Debias LLM-based Recommendation

============================== 三个问题速通这篇论文 ==============================

1. 推荐系统中的去偏是指什么,在论文中具体指什么?

推荐系统去偏是指减少推荐结果中由于模型训练、数据分布或用户行为等因素导致的偏差,例如过度推荐热门物品、忽略长尾物品或对某些类别或用户群体的不公平。
论文中的去偏指减少推荐结果中的同质化现象和流行度偏差,即避免过度推荐热门物品(如热门电影系列或频繁出现的词汇),同时提升推荐结果的多样性和公平性,确保不同类别或长尾物品也能被合理推荐。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2. 为什么用DPO进行去偏?

将语言模型应用在推荐中时,监督微调(SFT)还不够吗?

SFT的训练时一般只有正样本,没有负样本更直接让模型学习好坏 —— 即人类的好恶。DPO(Direct Preference Optimization)是一种直接优化语言模型对齐人类偏好的方法。DPO基于pair形式的偏好数据(比如<点击, 不点击>),学习用户对物品的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值