SPRec: Self-Play to Debias LLM-based Recommendation
============================== 三个问题速通这篇论文 ==============================
文章目录
1. 推荐系统中的去偏是指什么,在论文中具体指什么?
推荐系统去偏是指减少推荐结果中由于模型训练、数据分布或用户行为等因素导致的偏差,例如过度推荐热门物品、忽略长尾物品或对某些类别或用户群体的不公平。
论文中的去偏指减少推荐结果中的同质化现象和流行度偏差,即避免过度推荐热门物品(如热门电影系列或频繁出现的词汇),同时提升推荐结果的多样性和公平性,确保不同类别或长尾物品也能被合理推荐。
2. 为什么用DPO进行去偏?
将语言模型应用在推荐中时,监督微调(SFT)还不够吗?
SFT的训练时一般只有正样本,没有负样本更直接让模型学习好坏 —— 即人类的好恶。DPO(Direct Preference Optimization)是一种直接优化语言模型对齐人类偏好的方法。DPO基于pair形式的偏好数据(比如<点击, 不点击>),学习用户对物品的