X AI介绍了其最新的人工智能模型——Grok 4
使用20万块GPU跑出来的grok 4 他来了
先来说说 Grok 4 的亮点
- 多智能体协作,“测试时计算” 突破推理局限。
- 基于第一性原理,追求真相,无偏见推理。
第一性原理:自证为真的、不可再分解的,是构建更高阶知识和推理的绝对起点。
- 超 20 万张 H100 GPU 训练,100 倍训练量提升。
模型性能
Grok 4 推理阶段计算Grok 3 推理阶段计算的10倍
Grok 4 在处理文本的情况下,关联工具和无关联数据的 HLE 性能明显提升
通过联合多个智能体进行思考 矫正
多智能体协作能汇聚不同智能体优势
解决单一智能体难以处理的复杂问题
看到这里 我就觉得这部分后面仍然需要补充工具训练 也确实是 后面也说了指定工具后面等待补充
基准测试
Humanity’s Last Exam
Humanity’s Last Exam 简称 HLE,中文名为 “人类最后一次考试”
简单说一下问题
Mathematics(数学):涉及函子间自然变换、余自然变换,围绕特定对称群下神经的∞ - 范畴,问 F 和 G 间自然余变换数量 。
Chemistry(化学):关于热周环级联反应,需判断步骤 1、2 的电环化类型(按 [πn]-con/[πn]-dis 及顺旋 / 对旋表述)和步骤 3 的环加成类型(按 [m + n] 表述,m、n 为各组分原子数 )。
Linguistics(语言学):依据最新研究,对《圣经希伯来语》诗篇 104:7 的标准化文本,区分闭音节(以辅音结尾)和开音节,涉及西伯来语发音传统等 。
Humanity’s Last Exam”(HLE)基准测试中的正确率:
Grok4基础版: 25% Gemini 2.5 Pro:22% Deepseek R1模型:14% ChatGPT O3: 20%
可以说grok 4在任何学术领域都是“准研究生”水平
虽然说完就是一顿叠甲
但是能够通过这个测试说明
grok 4 在这些人类目前最最前沿的领域来说 能力毋庸置疑
人工智能分析智能指数
Artificial Analysis对 grok 4 的智能指数估算
ARC-AGI
超长上下文
256k 的超大上下文窗口
GPT - 4 Turbo:将上下文长度大幅提升到 128k token
这上下文窗口 只能说,在处理高难度任务时候才能感受到香迷糊了
DEMO
MLB球队世界大赛赔率预测
代码可视化
根据一个物理学提示,Grok4生成了一个关于
两个黑洞碰撞并产生引力波的 HTML动画
引用了一本分析引力波模型的教材
展示了其将复杂科学概念转化为代码和动态可视化
多模态能力
链接 X 进行检索
对于这个只能说期待与 X 的更加贴合 构建更完善的生态
对于图像生成有待完善
此外还推出了Grok 手机版并优化了响应速度,语音交互升级,角色丰富 (老马还拿去与gpt对比 吊打gpt ,但是基本和国内无关了)
supergrok heavy
最强大的 AI 模型
支持四个智能体同时独立且并行运行
最终汇聚所有结果优化各自的步骤选择最好的结果
Grok 4 更高速率限制
Grok 4 价格
Grok 4 30刀
Grok 4 heavy 300刀
马斯克的未来展望
- 8 月计划推出 Coding Model(编程模型 )
- 9 月推出 Multi - modal Agent(多模态智能体 )
- 10 月推出 Video Generation Model(视频生成模型 )
实测
实际使用下来,grok 4 对中文用户不是很友好 估计由于训练模型时 使用的文本都是英文
有时候输出的中文会夹杂着其他语言 之前爆火的grok 3 写些 text 仍然依旧
除了有哪些特殊需求(👆指学术)
对普通用户来说3o 已经够用了,毕竟Grok 4的价格摆在那里
总结
可见马斯克对grok 4的此次更新有着一定的信心
才会说出在未来1年内能发现新的定律
目前看下来grok 4 偏学术,对于文本,数学,物理,这些方面有较好的应用
20万张gpu的力大砖飞,铺垫了 X AI的未来
对于xAI和马斯克来说未来估计会对现实的物理模拟展开攻坚
还是那么的野心勃勃
但是对于这次说的8月编程模型,9 月agent,10月视频生成模型 我觉得有点悬,毕竟发布会里他自己都觉得图片生成仍不完美
希望更新下中文生态
欢迎在评论区留言分享你的想法和脑洞!