51c大模型~合集163

自己的原文哦~          https://blog.51cto.com/whaosoft/14080803

#Prover-Verifier Games improve legibility of LLM outputs

全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」

最近整个 AI 圈的目光似乎都集中在 GPT-5 上,相关爆料满天飞,但模型迟迟不见踪影。

昨天我们报道了 The Information 扒出的 GPT-5 长文内幕,今天奥特曼似乎也坐不住,发了推文表示「惊喜很多,值得等待」。

image.png

那么,在等待的过程中,我们来看看这次 GPT-5 的「疑似王牌」之一:通用验证器(universal verifier)。

据知情人士透露,OpenAI 一直在开发一种研究人员称之为「通用验证器」的东西,这个东西可能是 GPT-5 中用到的重要技术。

这个概念源于 OpenAI 去年发表的一篇论文。它解决的问题是:当 LLM 仅优化答案正确性时,其推理过程(如 Chain-of-Thought)变得难以被人类或小型模型理解和验证,导致「可解释性」下降。但在高风险应用中,用户需要能快速、准确判断模型输出是否正确,而不仅是输出答案本身。

为此,该论文提出了一套已准备好投入生产的技术管线,其核心在于:让一个「验证者」小模型来为「证明者」大模型的推理链打分,并将其作为奖励信号反馈给大模型进行策略更新。

论文标题:Prover-Verifier Games improve legibility of LLM outputs

论文地址:https://arxiv.org/pdf/2407.13692

论文明确指出,这个验证者模型足够小,可以进行大规模部署,并且是「为未来的 GPT 部署而设计」的。

你可以把它想象成一个模型里住着两个「人格」,它们在进行一场持续的「左右脑互搏」游戏:

  • 「证明者」人格(Prover):它扮演着一个积极解决问题的角色。在完成一道题后,它会尽力生成详细的推理过程,以说服那个轻量级的「验证者」网络,证明自己的答案是正确且可靠的。
  • 「欺骗者」人格(Sneaky Persona):它会故意在推理中植入错误的结论,但表面上依然会伪装得逻辑严密,目标是试图骗过同一个「验证者」。

听起来是不是很像 GAN(生成对抗网络)?   

image.png

通过让大模型在这两个角色之间不断交替,它既能学会写出逻辑更严谨、更难被伪造的解决方案,同时,那个小规模的「验证者」模型在反复的「欺骗」与「验证」中,其识别错误、标记漏洞的能力也变得越来越敏锐。这样做的好处在于,即使未来模型远超人类能力,只要其输出能被「较弱但可信」的模型验证,就能保持人类对其的控制与信任。

image.png

论文提出的训练方法能让模型逐渐学会产生清晰且结构良好的答案。

去年 8 月《连线》杂志的一篇文章披露,OpenAI 在微调 GPT-4 的代码助手时,就已经用基于模型的「批评家」在部分场景替代了人类反馈。

文章特别指出,该系统「将被整合到未来主流模型的 RLHF(基于人类反馈的强化学习)流程中」。

有人评论说,「证明者 - 验证者」训练方法不仅仅是一个小优化,它可能代表了 AI 发展的下一个时代。我们正在从一个依赖海量数据、靠「堆料」来提升性能的「scaling 时代」,转向一个通过设计更智能的内部学习机制、让 AI 自我完善和进化的「架构突破」时代。这或许是我们突破当前数据瓶颈、实现更高级别通用人工智能的关键路径。 

image.png

值得一提的是,这篇论文来自 OpenAI 的超级对齐团队。在论文发布时,团队就已经分崩离析。去年,xx详细报道过这篇论文(参见《OpenAI 超级对齐团队遗作:两个大模型博弈一番,输出更好懂了》),感兴趣的读者可以重温一下。

image.png

论文之外,GPT-5 模型也有了一些新消息。

今天一大早,某博主发现 Perplexity 有漏洞访问 GPT-5,并且有 GPT-5 和 5 Pro 两个版本,限时 4 小时。

image.png

他展示了自己用 GPT-5 生成的小黄人,动态效果看起来很丝滑。

图片

他还做了一个类似 Doom(FPS 游戏)的游戏片段,看起来也非常还原。

图片

网友纷纷表示「震惊」,认为这可能是 AI 生成的「新时代」。

image.png

image.png

无论如何,大家对 GPT-5 的期待已经拉满了!

你觉得 GPT-5 会是个什么样子?

参考链接:

​https://x.com/rohanpaul_ai/status/1951400750187209181​

​https://x.com/chetaslua/status/1951758235272401030​

#图灵奖得主Sutton再突破

强化学习在控制问题上媲美深度强化学习?

不知道大家是否还记得,人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton,在一个多月前的演讲。

Sutton 认为,LLM 现在学习人类数据的知识已经接近极限,依靠「模仿人类」很难再有创新。

未来人工智能的发展需要从经验中学习,而这一路径始终是「强化学习」。

这也是 Sutton 一以贯之的观点,不论是过去的文章《苦涩的教训(Bitter Lesson)》还是近期的研究工作,都能够显示出这位 AI 领域的核心人物,对于建立一个简单通用的,面向下一个「经验时代」的强化学习算法的热情。

近些天,Sutton 再发新论文,在强化学习领域再次发力,将他在 2024 年的时序差分学习新算法 SwiftTD 拓展到控制领域,在与一些更强大的预处理算法结合使用时,能够展现出与深度强化学习算法相当的性能表现。

  • 论文标题:Swift-Sarsa: Fast and Robust Linear Control
  • 论文链接:https://arxiv.org/abs/2507.19539v1

Sutton 在 2024 年提出了一种用于时序差分(TD)学习的新算法 ——SwiftTD。该算法在 True Online TD (λ) 的基础上进行了增强,融合了步长优化、对有效学习率的约束以及步长衰减机制。在实验中,SwiftTD 在多个源自 Atari 游戏的预测任务中均优于 True Online TD (λ) 和传统的 TD (λ),且对超参数的选择具有较强的鲁棒性。

在这篇论文中,作者将 SwiftTD 的核心思想与 True Online Sarsa (λ) 相结合,提出了一种基于策略的强化学习算法 ——Swift-Sarsa。

此外,还提出了一个用于线性基于策略控制的简单基准测试环境,称为「操作性条件反射基准」(operant conditioning benchmark)。

问题与方法

控制问题

本论文的控制问题由观测(observations)和动作(actions)构成。智能体在每一个时间步 t 接收到一个观测向量 x_t ∈ ℝⁿ,并输出一个动作向量 a_t ∈ ℝᵈ。观测向量中包含一个特殊的分量,即奖励 r_t。该奖励所在的分量索引在整个智能体生命周期中是固定不变的。

控制问题的性能通过生命周期平均奖励(lifetime average reward)来衡量,定义如下:

image.png

在控制问题中,智能体所选择的动作将决定其未来所能感知到的观测,因此智能体的目标是通过控制未来的观测序列来最大化其生命周期奖励。

Swift-Sarsa

SwiftTD 能够比以往的 TD 学习算法更准确地学习预测值。使其具备更优预测能力的核心思想,同样也可以应用于控制算法中。将 SwiftTD 的关键思想与 True Online Sarsa (λ)(Van Seijen 等,2016)结合,是将其应用于控制问题最直接的方式。

在控制问题中,智能体在每一个时间步的输出是一个具有 d 个分量的向量。Swift-Sarsa 限于动作数量离散的问题。如果动作向量的每个分量只能取有限个数值,那么整个动作空间就可以表示为一个有限的离散动作集合。

Swift-Sarsa 使用 SwiftTD 来为其 m 个离散动作中的每一个学习一个价值函数。在每个时间步,它会计算所有动作的价值,并将它们堆叠起来形成一个动作 - 价值向量。一个策略函数 π: ℝᵐ → {1, …, m} 接收该动作 - 价值向量作为输入,并返回一个离散动作。

当前时间步所选动作的价值被用于构建 bootstrapped target,而前一时间步所选动作的价值则作为预测值用于估计 TD 误差。只有当前所选动作对应的价值函数的资格迹(eligibility trace)向量会被更新。

可以用一些记号对该算法进行更具体的描述。设 wiₜ 是在时间步 t 时,第 i 个动作对应的价值函数的权重向量,ϕₜ 是当前时间步的特征向量。那么,第 j 个动作的价值为:

image.png

所有动作对应的价值被堆叠形成一个动作 - 价值向量 v_t−1,t ∈ ℝᵐ,其中:

image.png

设 a_t 和 a_t-1 分别为时间步 t 和 t-1 选择的动作。Swift-Sarsa 中的 TD 误差为:

image.png

除这些修改外,Swift-Sarsa 与 SwiftTD 是一致的。算法 1 给出了 Swift-Sarsa 的伪代码。

image.png

策略函数可以是任意函数,通常会被设计为:价值越高的动作被选择的概率越大。两种常用策略是:

1. ϵ- 贪婪策略(ϵ-greedy policy):以 1 - ϵ 的概率选择具有最高价值的动作,以 ϵ 的概率随机选择一个动作;

2. Softmax 策略:将动作价值转化为离散概率分布。

关于 SwiftTD 算法,请参阅论文:

  • 论文标题:SwiftTD: A Fast and Robust Algorithm for Temporal Difference Learning
  • 论文链接:https://openreview.net/pdf?id=JdvFna9ZRF

操作性条件反射基准测试

作者设计了一个名为操作性条件反射基准(operant conditioning benchmark)的测试基准,用于评估 Swift-Sarsa 的性能。

该基准定义了一组控制问题,这些问题不需要复杂的探索策略,随机策略也能偶尔选择到最佳动作。这些问题的最优策略可以由线性学习器表示。

在该基准中的问题里,观测向量由 n 个二值分量组成,动作向量由 d 个二值分量组成。n 和 d 是超参数,只要 n > d,它们的任意组合都定义了一个有效的控制问题。

在某些特定的时间步,观测向量的前 m 个分量中恰好有一个为 1,其余时间步则全部为 0。当前 m 个分量中的第 i 个在某个时间步为 1 时,若智能体选择的动作向量中第 i 个分量为 1 且其余分量为 0,则该智能体将在之后获得一个延迟奖励。该奖励延迟 k_1 个时间步,其中 k_1 是一个变量,每次智能体选择该奖励动作时从区间 (ISI_1, ISI_2) 中均匀采样。在所有其他时间步,奖励为 0。

每隔 k_2 个时间步,观测向量的前 m 个分量中会随机有一个被置为 1,其中 k_2 是一个变量,每次从区间 (ITI_1, ITI_2) 中均匀采样。

在每一个时间步,观测向量中其余 n − m 个分量中每一个以概率 µ_t 被置为 1。初始时 µ_1 = 0.05,之后按如下规则递归更新。

image.png

操作性条件反射基准的灵感来源于 Rafiee 等人(2023)提出的动物学习基准。动物学习基准的设计灵感来自行为主义者在动物身上进行的经典条件反射实验,而操作性条件反射基准则是受到了操作性条件反射实验的启发。两者的关键区别在于:

  • 在操作性条件反射实验中,动物所选择的行为会影响奖励的出现频率;
  • 而在经典条件反射实验中,动物无法控制奖励的出现,只能学习去预测即将到来的奖励(如巴甫洛夫的狗实验)。

实验结果

本论文在操作性条件反射基准上针对不同的 n 值对 Swift-Sarsa 进行了实验。

图 1 展示了在两种不同 n 值下,元步长参数(meta-step-size)和初始步长参数对平均奖励的影响。类似于 SwiftTD 的表现,Swift-Sarsa 的性能随着元步长参数的增大而提升,表明步长优化带来了明显的好处。在较宽的参数范围内,Swift-Sarsa 实现的生命周期奖励接近最优生命周期奖励(约为 0.014)。当干扰特征数量增加时,问题变得更具挑战性,Swift-Sarsa 的表现也随之下降。

image.png

在第二组实验中,我们比较了步长衰减(step-size decay)对 Swift-Sarsa 性能的影响,结果如图 2 所示。与其在 SwiftTD 中的作用类似,当初始步长参数设置过大时,步长衰减能够提升 Swift-Sarsa 的性能。

image.png

值得注意的是,若将 Swift-Sarsa 与更强大的预处理方法结合使用,它在更复杂的问题上(如 Atari 游戏)可能也能达到与深度强化学习算法相当的性能水平。

#GUI-G2

GUI定位还在玩「非黑即白」?浙大团队提出GUI-G²,显著提升GUI智能体定位性能

本文第一作者唐飞,浙江大学硕士生,研究方向是 GUI Agent、多模态推理等。本文通讯作者沈永亮,浙江大学百人计划研究员,博士生导师,研究方向包括大模型推理、多模态大模型、智能体等。

1. 研究背景和方法亮点

在人工智能飞速发展的今天,GUI 智能体(GUI Agent)正在成为下一个技术风口。这些 "数字助手" 能够像人类一样,通过自然语言指令自动操控电脑、手机等设备界面,从发邮件到编辑文档,几乎无所不能。想象一下,你只需说一句 "帮我在地图上添加个标记",AI 就能自动找到按钮并完成操作 —— 这就是 GUI 智能体的魅力所在。

但要实现这一切,有一个关键技术环节不能忽视:GUI Grounding(图形界面定位)。这是 GUI 智能体的 "眼睛" 和 "手",负责将自然语言指令精确映射到屏幕上的具体像素位置。就像人类看到 "点击保存按钮" 时能迅速定位并操作一样,GUI Grounding 让 AI 能够 "看懂" 界面并知道该点击哪里。

然而,这个看似简单的任务实际上充满挑战。现有的 GUI Grounding 方法普遍存在一个致命缺陷:它们把复杂的空间交互简化成了 "非黑即白" 的二元判断。

具体来说,当前主流方法采用的是二元奖励机制 —— 要么完全正确(奖励 = 1),要么完全错误(奖励 = 0)。这就像用 "及格 / 不及格" 来评价射击成绩:只要没打中靶心,哪怕子弹擦边而过,也和完全脱靶一样被判为 "0 分"。

这种评判标准带来了三大问题:

学习信号稀疏:模型在训练初期很难获得有效反馈,就像蒙着眼睛射箭,根本不知道朝哪个方向改进。;

忽视空间连续性:界面交互本质上是连续的空间过程,距离目标 1 像素和距离 100 像素理应得到不同的评价,但二元机制完全忽略了这种差异。;

与人类点击行为不符:作者通过分析 AITW 数据集发现,人类点击行为天然地遵循以目标为中心的高斯分布模式,而现有方法完全背离了这一自然规律。

更关键的是,GUI 界面元素具有天然的二维空间属性 —— 它们是有面积、有边界的区域,而不是抽象的点。用户可以在按钮的任意位置成功点击,只要在边界内即可。但传统的二元奖励机制完全忽略了这种空间特性,将丰富的几何信息简化为单一的 "中心点命中判断"。

图片

正是在这样的背景下,一个关键问题摆在了研究者面前:

“GUI Grounding 是否有更适合该任务特性的奖励机制?”

来自浙江大学的研究团队提出新方法 ——GUI-G²(GUI Gaussian Grounding Rewards),一个将 GUI 交互从离散的 "打靶游戏" 转变为连续的 "空间建模" 的全新方案。

  • 论文地址: https://arxiv.org/pdf/2507.15846
  • 项目主页:https://zju-real.github.io/GUI-G2
  • GitHub:https://github.com/ZJU-REAL/GUI-G2
  • Huggingface Paper: https://huggingface.co/papers/2507.15846

2.GUI-G² 框架:让 AI 学会 "人性化" 点击

图片

面对传统二元奖励的局限性,研究团队提出了 GUI-G²(GUI Gaussian Grounding Rewards)框架,核心思想是:既然人类的点击行为遵循高斯分布,为什么不让 AI 也这样学习?

GUI-G² 的创新之处在于将 GUI 元素建模为二维高斯分布,而非简单的点或矩形框。这一设计带来了三个关键突破:

1. 双重高斯奖励机制:

a) 高斯点奖励(Gaussian Point Rewards):评估定位精度,奖励值随着预测中心与目标中心的距离呈指数衰减。就像射击比赛中,越靠近靶心得分越高。

b) 高斯覆盖奖励(Gaussian Coverage Rewards):评估空间重叠度,通过测量预测分布与目标区域的重叠程度,确保模型理解元素的完整空间范围。

2. 自适应方差机制:不同界面元素的尺寸差异巨大 —— 从几像素的小图标到全屏的面板。GUI-G² 引入自适应方差机制,根据元素实际尺寸动态调整高斯分布的 "容错范围":(1)小图标:要求精确定位(小方差)(2)大按钮:允许更大的空间误差(大方差)。这就像人类的点击习惯 —— 对小目标更加小心,对大目标相对宽松。

3. 连续空间优化:与传统方法在目标框边界处出现 "奖励悬崖" 不同,GUI-G²在整个界面平面提供平滑的梯度信号。模型在任何位置都能获得有意义的反馈,大大提升了学习效率。

3、实验结果

研究团队在三个主流 GUI 定位基准上进行了全面评估。性能表现亮眼 ScreenSpot: 92.0% 准确率;ScreenSpot-v2: 93.3% 准确率;ScreenSpot-Pro: 47.5% 准确率,比 UI-TARS-72B 提升 24.7%。特别值得注意的是,GUI-G2-7B 仅用 7B 参数就超越了 72B 参数的大型模型,展现了惊人的效率优势。

图片

4、训练动态分析

对比实验显示,传统稀疏奖励在训练过程中表现出严重的不稳定性 —— 奖励值剧烈波动,距离目标中心的收敛过程杂乱无章。而 GUI-G² 展现出单调平滑的收敛曲线,从 290 像素逐步优化到 150 像素,学习过程清晰可控。

图片

5、消融研究证实设计合理性

  • 移除覆盖奖励:性能下降至 92.1%(-1.2%)
  • 移除点奖励:性能下降至 90.2%(-3.1%)
  • 限制奖励范围:仅在目标框内提供高斯奖励,性能下降 4.9%
  • 固定方差机制:使用统一方差参数,性能仅 87.8%,比自适应机制低 5.5 个百分点

图片

这些结果证实了双重奖励机制的必要性,以及全空间连续反馈的重要作用。

6、虚假奖励实验:验证方法的本质有效性

为了证明 GUI-G² 的提升并非来自于强化学习的 "虚假刺激效应",研究团队特意设计了对照实验 —— 使用完全随机的奖励信号进行训练:

  • 连续随机奖励 U (0,1):从 90.6% 逐步下降至 87.9%(-2.7%)
  • 二元随机奖励 {0,1}:从 88.6% 快速跌至 84.5%(-4.1%)

实验结果表明,虚假的随机奖励只会让性能持续恶化,这有力证明了 GUI-G² 的性能提升源于其科学的空间建模机制,而非强化学习过程中的偶然因素。

图片

7、GUI-G²总结

GUI-G²通过三个核心创新重新定义了GUI交互的本质:引入双重高斯奖励机制,同时优化定位精度和空间覆盖;设计自适应方差机制,根据元素尺寸动态调整容错范围;实现连续空间优化,为模型提供平滑的全域梯度信号。这一框架将GUI定位从稀疏的二元优化转变为密集的连续奖励反馈,在三个基准测试中均取得显著提升。

#AI拒绝作答第六题

OpenAI IMO金牌团队爆料

让 OpenAI 拿到 IMO 金牌的模型,背后居然只有三个核心开发者?这是 OpenAI IMO 团队最近接受媒体采访披露的信息。

这三个人分别是:项目负责人 Alexander Wei、研究工程师 Sheryl Hsu 和高级研究科学家 Noam Brown。其中,Sheryl Hsu 直到今年 3 月才入职。

他们还透露,这个项目是用两三个月的时间突击赶出来的,结果令所有人都很意外。

大型语言模型在 IMO 中拿到金牌被视为一个重要的里程碑,不仅意味着模型数学能力的增强,还体现了其在处理难以验证任务的通用技术上的进步。

那么,这个模型背后有哪些值得关注的点?该团队下一步有什么计划?我们一起来看一下采访内容。

,时长30:10

视频链接:https://www.youtube.com/watch?v=EEIPtofVe2Q

1、项目是什么时候启动的?

赢得 IMO 金牌一直是 AI 领域,尤其是 OpenAI 内部,一个长期追求的目标,相关的讨论最早可以追溯到 2021 年。 

尽管相关的强化学习算法和底层思路已经酝酿了大约六个月,但真正为了这次突破而进行的集中攻关,实际上只在 IMO 竞赛前的两三个月才开始。

2、项目团队有多大?

核心团队仅由 Alex、Cheryl 和 Noam 三人组成, 其中 Alex 负责主要的技术开发。Alex 最初提出这项新技术时也曾面临质疑,但随着他展示出强有力的证据,尤其是在处理那些「难以验证的任务」上取得了显著的进步后,他的方案逐渐赢得了团队和公司的支持。 

3、模型的证明风格是怎样的?

团队坦诚地描述,AI 模型生成的数学证明在风格上非常独特,甚至可以说是「atrocious」(糟糕的)或「creative」(有创意的)。这些证明充满了机器的逻辑,对于人类来说很难读懂。但为了透明起见,OpenAI 并没有为人类的可读性进行优化,而是将这些由 AI 生成的、最原始的证明直接发布在了 GitHub 上,供全世界查阅。 

4、模型在「第六题」上失分,说明了什么?

IMO 的第三题或第六题是传统上最困难的题。模型在面对第六题时,最终选择「不作答」。但团队并未将此视为失败,反而认为这是一个非常积极的信号。这说明它清楚地知道自己能力的边界,在无法解决问题时选择了放弃,而不是像过去的 AI 模型那样,会「一本正经地胡说八道」(hallucinating),编造一个错误的答案。如果模型选择编造,人类要非常仔细地检查才能发现。

Alex 分析说,像第六题这样的组合数学问题对 AI 来说尤其困难,因为它们更抽象、维度更高,需要「信念的飞跃或洞察力的闪现」,而这正是当前 AI 的弱项。AI 更擅长通过大量、微小的、连续的步骤来解决问题。 

5、我们离解决「千禧年大奖难题」还有多远?

当被问及 AI 是否能在明年解决「千禧年大奖难题」时,Alex 明确表示,这些难题仍然「非常遥远」。他通过一个量化的对比来阐述这个差距:AI 解决问题的能力从处理只需几秒钟的小学数学题(GSM8K),跃升到了能解决顶尖人类学生平均需要一个半小时的 IMO 难题 。然而,真正的研究级数学可能需要这些天才成长为研究员后,花费 1500 个小时才能取得突破 。而千禧年大奖难题的难度则更高,它们耗费了整个领域学者们一生的思考时间,但进展甚微 。因此,团队一方面为已取得的进展感到非常兴奋,另一方面也对未来的挑战感到「谦卑」,因为从解决一个半小时的问题到攻克需要数万甚至数十万小时人类思考时间的难题,还有极其漫长的路要走 。

注:千禧年大奖难题是七条由美国的克雷数学研究所于 2000 年公布的数学难题,解题总奖金 700 万美元。这些难题旨在呼应 1900 年德国数学家大卫・希尔伯特在巴黎提出的 23 个历史性数学难题。而千禧年大奖难题的破解,极有可能为密码学、航天、通讯等领域带来突破性进展。迄今为止,在七条问题中,庞加莱猜想是唯一已解决的,而其它六道难题(包括黎曼猜想、P vs NP 问题、纳维 - 斯托克斯方程、杨 - 米尔斯理论、霍奇猜想和 BSD 猜想)仍有待研究者探索。

6、让模型思考更长时间存在哪些挑战?

Noam 指出,当模型「思考」的时间变得非常长时(比如 1500 小时),评估(evaluation)本身就成了一个巨大的瓶颈。运行一个需要模型思考一个月的测试,就需要花费一个月的时间才能看到结果。这会极大地拖慢研究迭代的速度。目前,思考 1.5 小时还是可控的,但未来这将是必须解决的难题 。

7、multi-agents 系统在这个项目中扮演了什么角色?

据 Noam Brown 介绍,除了让模型能长时间思考并处理难以验证的任务外,项目还涉及「扩展并行计算」(scaling up parallel compute),而这其中就包含了多智能体的部分,不过他表示无法透露过多具体的技术细节,但这确实是他们用来扩展模型在测试时计算能力的一种方式。 

紧接着,Noam 强调,在应用这些技术时,团队非常优先考虑「通用性」(generality)。他将此与过去的项目做对比,例如他曾研究过的扑克 AI 以及和 Alex 共同参与过的《外交》游戏 AI(Cicero 项目)。虽然那些项目成果斐然,但它们都属于耗费数年时间开发的、只能完成单一任务的「定制系统」 。在人工智能飞速发展的今天,花费大量时间构建这样的专用系统已不是最佳选择。因此,团队在此次研究中有意识地优先采用了通用技术 。最终,无论是用于扩展思考时间、处理难验证任务,还是用于并行计算的技术,全都是通用的,团队计划或已经将这些技术应用于其他系统,以全面提升模型的推理能力 。

8、为什么不使用 Lean(一种形式化证明工具)?

团队解释说,Lean 对于数学家来说是一个有价值的工具,但它有其局限性。OpenAI 的首要任务是发展「通用的推理能力」,而可以被自然语言方法处理的现实世界问题,远比可以被严格形式化的要多。因此他们选择优先发展自然语言推理。 

不过,Noam Brown 也强调:「我不认为专用 AI 有什么问题」 。他认为,专用 AI 可以非常高效,并且在特定领域显然能够远远超越通用 AI 。通用 AI 与专用系统(如形式化验证工具 Lean)的关系并非二选一,人类数学家也会发现并使用 Lean 这类专用工具来获取价值。因此,他认为通用 AI 与更专注于特定领域的专用系统是兼容的,并且相信两者的结合会因为互补而变得更强大 。

9、这个项目用到的基础设施是什么样的?

Cheryl 证实,这个项目是在与其他近期发布的 OpenAI 产品非常相似的基础设施上构建的 。这再次印证了其方法的通用性,没有任何东西是专门为 IMO「定制」的 。团队的期望是,这些由 Alex 开发出的、关于处理不可验证任务和扩展计算时间的技术,能够被应用于推理的其他领域,从而持续改进 ChatGPT 等所有模型。 

10、「提出问题」将成为 AI 面临的新挑战?

主持人提到,「提出有趣的问题」本身就是最难的事情 。团队成员表示认同,并认为让模型学会提出新颖的、有价值的问题(例如创造一个 IMO 级别的新题目),是继解决问题之后,AI 需要克服的下一个巨大障碍 。 

11、物理奥赛题是不是比数学更难?

Alex 表示,物理奥赛「绝对更难」,因为它包含了一个需要动手操作的「实验部分」,这需要先解决机器人技术领域的难题 。 

12、模型未来会开放给大家使用吗?

团队表示希望将其提供给数学家使用,但如何实现的具体细节仍在研究中。他们非常期待看到数学家们能用这个强大的新工具来挑战哪些难题。 

Noam 分享了一个持续了一年的故事。一位斯坦福大学的数学教授会定期发邮件,用一个非常难的问题来测试 OpenAI 的最新模型。虽然最新的 IMO 模型依然无法解决这个问题,但它首次明确地「认识到自己无法解决」,这被认为是一个重要的进步 。

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值