系列文章传送门
(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】
(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】
(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】
(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】
(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】
(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】
该系列文章根据小红书搜推算法工程师、团队负责人王树森B站上主讲的《工业界的推荐系统》之小红书业务场景及内部实践整理而得。感谢大佬分享工业界前沿的推荐系统实战技术!
双塔模型:正负样本
正样本
正样本:曝光而且有点击的用户—物品二元组。 (用户对物品感兴趣)。
问题:少部分物品占据大部分点击,导致正样本大多是热门物品。
解决方案:过采样冷门物品,或降采样热门物品。
- 过采样(up-sampling):一个样本出现多次。
- 降采样(down-sampling):一些样本被抛弃。
如何选择负样本?
简单负样本
1. 全体物品
- 未被召回的物品,大概率是用户不感兴趣的。
- 未被召回的物品 ≈ 全体物品
- 从全体物品中做抽样,作为负样本。
- 均匀抽样 or 非均匀抽样?
2. Batch内负样本
这里 − l o g p i -logp_i −logpi 相当于物品的先验,模型实际上非常容易拟合先验的,所以要debias掉。
困难负样本
- 困难负样本:
- 被粗排淘汰的物品(比较困难)。
- 精排分数靠后的物品(非常困难)。
- 对正负样本做二元分类:
- 全体物品(简单)分类准确率高。
- 被粗排淘汰的物品(比较困难)容易分错。
- 精排分数靠后的物品(非常困难)更容易分错。
实践中,通常混合几种负样本使用,如:
- 50%的负样本是全体物品(简单负样本)。
- 50%的负样本是没通过排序的物品(困难负样本)。
常见的错误
常见误区:曝光但是未点击的物品被当作召回的负样本。
选择负样本的原理
召回的目标:快速找到用户可能感兴趣的物品。