利用偏好优化从成对比较中学习

### 利用偏好优化从成对比较中学习在A/B测试和产品推荐工作流程中，获取客户对产品的数值评分是一项常见任务。然而，客户在精确评分时往往会受到各种外部因素的干扰，导致评分结果存在较大噪音，难以准确反映其真实偏好。同时，大量收集数据又可能会打扰客户，导致客户流失。幸运的是，研究表明，人类在进行成对比较（如“产品A比产品B好”）时表现更佳，这种方式能有效减轻认知负担，收集到更符合用户真实偏好的高质量数据。本文将探讨如何利用成对比较数据训练机器学习模型，以及如何为用户呈现新的比较对，以优化用户偏好。 #### 1. A/B测试与成对比较的概念 - **A/B测试**：通过随机实验测量用户在两种环境（A和B）中的体验，以确定哪个环境更受欢迎。这是科技公司常用的方法。 - **成对比较**：每次向客户呈现两个选项，让其选择更喜欢的一个，以此收集偏好数据。与数值评分不同，它更侧重于相对偏好。 #### 2. 数据反馈中的噪音问题在产品评分中，噪音可能来自多个方面，如在线流媒体服务中的广告数量、包裹配送服务质量以及客户消费产品时的情绪等。这些因素会干扰客户对产品的真实评价，使评分难以准确反映其偏好。 #### 3. 成对比较的优势 - **认知负担低**：比较两个物品比在量表上评分更容易，能更好地与用户的真实偏好保持一致。 - **高质量数据**：由于任务简单，用户更可能准确表达偏好，从而提供更可靠的反馈。例如，在图10.1所示的在线购物界面中，让用户选择更喜欢的衬衫比直接评分更容易完成。 | 比较方式 | 优点 | 缺点 | | --- | --- | --- | | 数值评价 | 包含更多信息 | 难以报告，易受噪音干扰 | | 成对比较 | 易于报告 | 包含信息较少 | #### 4. 成对比较在多目标优化中的应用在需要考虑多个标准的决策场景中，成对比较尤为有用。例如，购买汽车时，不同车型在外观、实用性、能源效率和成本等方面各有优劣，难以综合评分。此时，直接比较两款车更容易做出决策。 #### 5. 贝叶斯优化循环为了利用成对比较来学习和优化客户偏好，我们采用了修改后的贝叶斯优化循环： ```mermaid graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px; classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; A([开始]):::startend --> B(步骤1: 在成对比较数据上训练GP):::process B --> C(步骤2: 使用策略评分，找到下一对要比较的产品):::process C --> D(步骤3: 用户比较策略推荐的产品，并更新训练数据):::process D --> E([结束]):::startend ``` - **步骤1**：使用成对比较数据训练高斯过程（GP），确保GP对目标函数（用户真实偏好函数）的信念反映观察到的比较信息。 - **步骤2**：贝叶斯优化策略计算获取分数，量化每个潜在新查询对用户的有用性。查询以产品对的形式呈现，策略需要平衡利用已知偏好高的区域和探索未知区域。 - **步骤3**：用户比较策略推荐的两个产品，并报告更喜欢的产品，新信息将添加到训练集中。 #### 6. 问题提出我们需要解决两个主要问题： 1. 如何仅使用成对比较数据训练GP？ 2. 如何生成新的产品对，以尽快确定用户偏好的最大值？ #### 7. 偏好优化问题的建模与数据格式化为了解决上述问题，我们以夏威夷衬衫的产品推荐问题为例进行说明。假设客户对衬衫的偏好主要取决于印花花朵的数量，我们的目标是找到花朵数量最优的衬衫。 ##### 7.1 定义目标函数使用Forrester函数模拟用户的真实偏好，函数定义如下： ```python import torch def objective(x): y = -((x + 1) ** 2) * torch.sin(2 * x + 2) / 5 + 1 + x / 3 return y lb = -5 ub = 5 bounds = torch.tensor([[lb], [ub]], dtype=torch.float) ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

利用偏好优化从成对比较中学习

相关推荐

专栏目录

利用偏好优化从成对比较中学习

相关推荐

含暗示反馈的协同推荐的自适应成对偏好学习

基于深度学习的最后一公里交付优化研究（包括详细代码）

从直接偏好的角度优化大型语言模型：数据效率的视角

训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)和DPO(直接偏好优化).zip

构建高职学生网络学习行为学习偏好的数据挖掘模型.pdf

通过偏好学习进行三维视觉舒适度评估

基于半监督对手协商偏好学习的协商模型

云环境下基于用户偏好的粒子群优化算法的Web服务选择.pdf

一种上下文移动用户偏好自适应学习方法1

消费者偏好预测的深度学习神经网络模型.pdf

Access denied for user ‘root‘@‘localhost‘ (using password: YES)

Easytouse,highlycustomizableVue.jsmodallibrary..zip

专栏目录

最新推荐

强化学习与合成数据生成：UnityML-Agents深度解析

利用Kaen实现PyTorch分布式训练及超参数优化

模型生产化：从本地部署到云端容器化

【动画系统终极指南】：3步掌握Cocos2d-x塔防角色高效动画管理术

使用PyTorch构建电影推荐系统

二维和三维偏微分方程耦合求解及生命科学中常微分方程问题的解决

电力电子中的Simulink应用：锁相环、静止无功补偿器与变流器建模

多视图检测与多模态数据融合实验研究

模糊推理系统对象介绍

利用PyTorch进行快速原型开发