推荐系统[三]:粗排算法常用模型汇总(集合选择和精准预估),技术发展历史(向量內积,Wide&Deep等模型)以及前沿技术

本文介绍了推荐系统中的粗排算法,从早期的统计模型和LR,到基于向量内积的深度模型,再到最新的COLD框架。COLD通过算法与系统联合优化,实现了效果和算力的平衡,支持复杂模型并进行特征筛选和结构化剪枝,同时进行工程优化,提高QPS和降低延迟。粗排技术的发展趋势包括粗排精排化和回归集合选择的本质,旨在提高算力利用率和效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源)

在这里插入图片描述
专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源)

前人栽树后人乘凉,本专栏提供资料:

  1. 推荐系统算法库,包含推荐系统经典及最新算法讲解,以及涉及后续业务落地方案和码源
  2. 本专栏会持续更新业务落地方案以及码源。同时我也会整理总结出有价值的资料省去你大把时间,快速获取有价值信息进行科研or业务落地帮助你快速完成任务落地,以及科研baseline

相关文章推荐:

<think>嗯,用户想了解推荐算法常用模型,这个我得仔细想想。推荐系统是机器学习应用里的重要部分,覆盖电商、社交媒体、视频平台等等。首先,得从传统的模型说起,比如协同过滤,可能分为基于用户基于物品的。然后是矩阵分解,比如SVD或者FunkSVD,这些在Netflix比赛中很出名。 接下来是机器学习模型,比如逻辑回归、因子分解机(FM),FM可以处理高维稀疏数据,适合推荐场景。然后可能提到GBDT这类集成方法,比如Facebook用的GBDT+LR组合模型。 然后深度学习模型,用户可能想了解神经网络的应用。比如Wide & Deep模型,结合记忆泛化能力。还有NeuralCF,用神经网络替代矩阵分解中的内积操作。另外,注意力机制现在很火,比如AFM、DeepFM这些改进模型。序列模型如DIN(Deep Interest Network)处理用户行为序列,可能也要提到。 还有基于图的模型,比如Graph Embedding,Node2Vec或者GAT,这些在处理社交网络或者复杂关系时有用。实时推荐模型可能涉及强化学习,比如DQN,但实际应用可能少一些,可以提一下。 另外,冷启动问题可能需要一些模型,比如利用内容信息的混合模型。多任务学习模型如MMOE,同时优化多个目标,比如点击率停留时间,可能也要涵盖。 需要确保分类清晰,每个模型简要说明原理应用场景,可能还要优缺点。用户可能是开发者或者学生,需要结构化的信息,帮助他们选择合适模型。要检查有没有遗漏的重要模型,比如YouTube的深度推荐模型,或者BERT这类预训练模型推荐中的应用,不过可能属于较新的内容,是否要包括? 还要注意用中文,数学公式用$$,行内用$。比如协同过滤中的用户相似度计算可以用$similarity(u,v) = \frac{\sum_{i \in I_{uv}}(r_{ui} - \bar{r}_u)(r_{vi} - \bar{r}_v)}{\sqrt{\sum_{i \in I_{uv}}(r_{ui} - \bar{r}_u)^2} \sqrt{\sum_{i \in I_{uv}}(r_{vi} - \bar{r}_v)^2}}$这样的公式,但要注意正确性。 结构上可能需要分传统模型、机器学习模型、深度学习模型、图模型、其他模型(冷启动、多任务)等部分。每个部分下有几个模型,每个模型简要说明,可能加上例子。比如协同过滤在Netflix比赛中的应用,Wide & Deep在Google Play的应用。 要确保术语正确,比如FMFFM的区别,可能FFM(Field-aware FM)也需要提到?或者保持简洁,只提关键模型。另外,时间顺序是否重要?比如从传统到现代的发展过程。 最后,可能需要总结如何选择模型,比如数据量、场景需求、实时性等,帮助用户理解不同模型的适用情况。避免过于技术细节,保持解释易懂,同时覆盖主要模型。</think>推荐算法是信息过滤系统的核心,常用模型可划分为传统模型、机器学习模型深度学习模型大类。以下是逐步解析: --- ### 一、传统模型 #### 1. 协同过滤(Collaborative Filtering, CF) - **原理**:基于用户历史行为(评分/点击)计算相似性 - **类型**: - **用户基CF**:计算用户相似度,公式: $$similarity(u,v) = \frac{\sum_{i \in I_{uv}}(r_{ui} - \bar{r}_u)(r_{vi} - \bar{r}_v)}{\sqrt{\sum_{i \in I_{uv}}(r_{ui} - \bar{r}_u)^2} \sqrt{\sum_{i \in I_{uv}}(r_{vi} - \bar{r}_v)^2}}$$ - **物品基CF**:计算物品相似度,通过余弦相似度或改进的$Jaccard$系数 - **局限**:冷启动问题、数据稀疏性 #### 2. 矩阵分解(Matrix Factorization, MF) - **原理**:将用户-物品评分矩阵分解为低维隐向量,如$R \approx U \cdot V^T$ - **典型方法**:SVD、FunkSVD(加入偏置项) - **优化目标**: $$\min_{U,V} \sum_{(u,i) \in \mathcal{K}} (r_{ui} - \mu - b_u - b_i - U_u^T V_i)^2 + \lambda(||U||^2 + ||V||^2)$$ --- ### 二、机器学习模型 #### 1. 逻辑回归(Logistic Regression, LR) - **应用**:点击率预估(CTR),通过特征组合预测用户行为概率 $$P(y=1|x) = \frac{1}{1 + e^{-(w^Tx + b)}}$$ - **缺点**:需人工构造交叉特征 #### 2. 因子分解机(Factorization Machines, FM) - **改进**:自动学习特征交叉,公式: $$\hat{y}(x) = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \langle v_i, v_j \rangle x_i x_j$$ - **优势**:处理高维稀疏数据(如用户ID、物品ID) #### 3. GBDT+LR(Facebook 2014) - **思路**:GBDT自动生成特征组合,输入LR进行预测 - **流程**: ```mermaid graph LR A[原始特征] --> B(GBDT生成叶节点路径) B --> C[新组合特征] C --> D(逻辑回归预测) ``` --- ### 、深度学习模型 #### 1. Wide & Deep(Google 2016) - **结构**: - **Wide部分**:记忆高频特征组合(如LR) - **Deep部分**:DNN泛化长尾特征 - **公式**: $$P(y=1|x) = \sigma(w_{wide}^T [x, \phi(x)] + w_{deep}^T a^{(l)} + b)$$ #### 2. NeuralCF(2017) - **改进**:用神经网络替代MF的内积操作 - **结构**:用户/物品嵌入向量输入多层感知机(MLP) #### 3. 注意力机制模型 - **案例**:AFM(Attentional Factorization Machines) $$y_{\text{AFM}} = w_0 + \sum_{i=1}^n w_i x_i + p^T \sum_{i=1}^n \sum_{j=i+1}^n a_{ij}(v_i \odot v_j) x_i x_j$$ - **应用**:DIEN(Deep Interest Evolution Network)建模动态兴趣 --- ### 四、图模型与强化学习 #### 1. Graph Embedding - **方法**:Node2Vec、GraphSAGE - **场景**:社交网络推荐、跨域推荐 #### 2. 强化学习(RL) - **框架**:DQN(Deep Q-Network)建模推荐为序列决策问题 - **挑战**:在线训练成本高 --- ### 五、模型选择建议 1. **数据量小**:传统模型(CF、MF) 2. **特征丰富**:FM、Wide & Deep 3. **行为序列建模**:DIN、DIEN 4. **实时性要求高**:双塔模型(如YouTube DNN) 实际应用中常采用多模型融合(如召回层用FM,排序层用DeepFM),并结合A/B测试优化效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀、人工智能

十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值