20 万张 GPU 堆出的 Grok 4 来了！256K 上下文 + 多智能体，学术碾压同行？

gptplus

于 2025-07-16 09:36:51 发布

阅读量582

点赞数 10

CC 4.0 BY-SA版权

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gptplus/article/details/149387612

X AI介绍了其最新的人工智能模型——Grok 4

使用20万块GPU跑出来的grok 4 他来了

先来说说 Grok 4 的亮点

多智能体协作，“测试时计算” 突破推理局限。
基于第一性原理，追求真相，无偏见推理。

第一性原理：自证为真的、不可再分解的，是构建更高阶知识和推理的绝对起点。

超 20 万张 H100 GPU 训练，100 倍训练量提升。

模型性能

Grok 4 推理阶段计算Grok 3 推理阶段计算的10倍

Grok 4 在处理文本的情况下，关联工具和无关联数据的 HLE 性能明显提升

通过联合多个智能体进行思考矫正

多智能体协作能汇聚不同智能体优势

解决单一智能体难以处理的复杂问题

看到这里我就觉得这部分后面仍然需要补充工具训练也确实是后面也说了指定工具后面等待补充

基准测试

Humanity’s Last Exam

Humanity’s Last Exam 简称 HLE，中文名为 “人类最后一次考试”

简单说一下问题

Mathematics（数学）：涉及函子间自然变换、余自然变换，围绕特定对称群下神经的∞ - 范畴，问 F 和 G 间自然余变换数量。

Chemistry（化学）：关于热周环级联反应，需判断步骤 1、2 的电环化类型（按 [πn]-con/[πn]-dis 及顺旋 / 对旋表述）和步骤 3 的环加成类型（按 [m + n] 表述，m、n 为各组分原子数）。

Linguistics（语言学）：依据最新研究，对《圣经希伯来语》诗篇 104:7 的标准化文本，区分闭音节（以辅音结尾）和开音节，涉及西伯来语发音传统等。

Humanity’s Last Exam”（HLE）基准测试中的正确率：

Grok4基础版: 25% Gemini 2.5 Pro：22% Deepseek R1模型：14% ChatGPT O3: 20%

可以说grok 4在任何学术领域都是“准研究生”水平

虽然说完就是一顿叠甲

但是能够通过这个测试说明

grok 4 在这些人类目前最最前沿的领域来说能力毋庸置疑

人工智能分析智能指数

Artificial Analysis对 grok 4 的智能指数估算

ARC-AGI

超长上下文

256k 的超大上下文窗口

GPT - 4 Turbo：将上下文长度大幅提升到 128k token

这上下文窗口只能说，在处理高难度任务时候才能感受到香迷糊了

DEMO

MLB球队世界大赛赔率预测

代码可视化

根据一个物理学提示，Grok4生成了一个关于

两个黑洞碰撞并产生引力波的 HTML动画

引用了一本分析引力波模型的教材

展示了其将复杂科学概念转化为代码和动态可视化

多模态能力

链接 X 进行检索

对于这个只能说期待与 X 的更加贴合构建更完善的生态

对于图像生成有待完善

此外还推出了Grok 手机版并优化了响应速度，语音交互升级，角色丰富（老马还拿去与gpt对比吊打gpt ，但是基本和国内无关了）

supergrok heavy

最强大的 AI 模型

支持四个智能体同时独立且并行运行

最终汇聚所有结果优化各自的步骤选择最好的结果

Grok 4 更高速率限制

Grok 4 价格

Grok 4 30刀

Grok 4 heavy 300刀

马斯克的未来展望

8 月计划推出 Coding Model（编程模型）
9 月推出 Multi - modal Agent（多模态智能体）
10 月推出 Video Generation Model（视频生成模型）

实测

实际使用下来，grok 4 对中文用户不是很友好估计由于训练模型时使用的文本都是英文

有时候输出的中文会夹杂着其他语言之前爆火的grok 3 写些 text 仍然依旧

除了有哪些特殊需求（👆指学术）

对普通用户来说3o 已经够用了，毕竟Grok 4的价格摆在那里

总结

可见马斯克对grok 4的此次更新有着一定的信心

才会说出在未来1年内能发现新的定律

目前看下来grok 4 偏学术，对于文本，数学，物理，这些方面有较好的应用

20万张gpu的力大砖飞，铺垫了 X AI的未来

对于xAI和马斯克来说未来估计会对现实的物理模拟展开攻坚

还是那么的野心勃勃

但是对于这次说的8月编程模型，9 月agent，10月视频生成模型我觉得有点悬，毕竟发布会里他自己都觉得图片生成仍不完美

希望更新下中文生态

欢迎在评论区留言分享你的想法和脑洞！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。