20 万张 GPU 堆出的 Grok 4 来了!256K 上下文 + 多智能体,学术碾压同行?

X AI介绍了其最新的人工智能模型——Grok 4

使用20万块GPU跑出来的grok 4 他来了

先来说说 Grok 4 的亮点

  • 多智能体协作,“测试时计算” 突破推理局限。
  • 基于第一性原理,追求真相,无偏见推理。

第一性原理:自证为真的、不可再分解的,是构建更高阶知识和推理的绝对起点。

  • 超 20 万张 H100 GPU 训练,100 倍训练量提升。

模型性能

Grok 4 推理阶段计算Grok 3 推理阶段计算的10倍

Grok 4 在处理文本的情况下,关联工具和无关联数据的 HLE 性能明显提升

通过联合多个智能体进行思考 矫正

多智能体协作能汇聚不同智能体优势

解决单一智能体难以处理的复杂问题

看到这里 我就觉得这部分后面仍然需要补充工具训练 也确实是 后面也说了指定工具后面等待补充

基准测试

Humanity’s Last Exam

Humanity’s Last Exam 简称 HLE,中文名为 “人类最后一次考试”

简单说一下问题

Mathematics(数学):涉及函子间自然变换、余自然变换,围绕特定对称群下神经的∞ - 范畴,问 F 和 G 间自然余变换数量 。

Chemistry(化学):关于热周环级联反应,需判断步骤 1、2 的电环化类型(按 [πn]-con/[πn]-dis 及顺旋 / 对旋表述)和步骤 3 的环加成类型(按 [m + n] 表述,m、n 为各组分原子数 )。

Linguistics(语言学):依据最新研究,对《圣经希伯来语》诗篇 104:7 的标准化文本,区分闭音节(以辅音结尾)和开音节,涉及西伯来语发音传统等 。

Humanity’s Last Exam”(HLE)基准测试中的正确率:

Grok4基础版: 25% Gemini 2.5 Pro:22% Deepseek R1模型:14% ChatGPT O3: 20%

可以说grok 4在任何学术领域都是“准研究生”水平

虽然说完就是一顿叠甲

但是能够通过这个测试说明

grok 4 在这些人类目前最最前沿的领域来说 能力毋庸置疑

人工智能分析智能指数

Artificial Analysis对 grok 4 的智能指数估算

ARC-AGI

超长上下文

256k 的超大上下文窗口

GPT - 4 Turbo:将上下文长度大幅提升到 128k token

这上下文窗口 只能说,在处理高难度任务时候才能感受到香迷糊了

DEMO

MLB球队世界大赛赔率预测

代码可视化

根据一个物理学提示,Grok4生成了一个关于

两个黑洞碰撞并产生引力波的 HTML动画

引用了一本分析引力波模型的教材

展示了其将复杂科学概念转化为代码和动态可视化

多模态能力

链接 X 进行检索

对于这个只能说期待与 X 的更加贴合 构建更完善的生态

对于图像生成有待完善

此外还推出了Grok 手机版并优化了响应速度,语音交互升级,角色丰富 (老马还拿去与gpt对比 吊打gpt ,但是基本和国内无关了)

supergrok heavy

最强大的 AI 模型

支持四个智能体同时独立且并行运行

最终汇聚所有结果优化各自的步骤选择最好的结果

Grok 4 更高速率限制

Grok 4 价格

Grok 4 30刀

Grok 4 heavy 300刀

马斯克的未来展望

  • 8 月计划推出 Coding Model(编程模型 )
  • 9 月推出 Multi - modal Agent(多模态智能体 )
  • 10 月推出 Video Generation Model(视频生成模型 )

实测

实际使用下来,grok 4 对中文用户不是很友好 估计由于训练模型时 使用的文本都是英文

有时候输出的中文会夹杂着其他语言 之前爆火的grok 3 写些 text 仍然依旧

除了有哪些特殊需求(👆指学术)

对普通用户来说3o 已经够用了,毕竟Grok 4的价格摆在那里

总结

可见马斯克对grok 4的此次更新有着一定的信心

才会说出在未来1年内能发现新的定律

目前看下来grok 4 偏学术,对于文本,数学,物理,这些方面有较好的应用

20万张gpu的力大砖飞,铺垫了 X AI的未来

对于xAI和马斯克来说未来估计会对现实的物理模拟展开攻坚

还是那么的野心勃勃

但是对于这次说的8月编程模型,9 月agent,10月视频生成模型 我觉得有点悬,毕竟发布会里他自己都觉得图片生成仍不完美

希望更新下中文生态

欢迎在评论区留言分享你的想法和脑洞!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值