2025 注定是不平凡的一年,开年爆火的DeepSeek还热乎着,马斯克的Grok3 就气势汹汹地又添了一把火。
就在今天中午(2月18日),马斯克的xAI公司发布了G最新模型: Grok-3 及 Grok-3 推理版,瞬间引起了全球科技界的大轰动。
这个被马斯克称为“地球上最聪明AI”的模型,到底有什么过人之处?
01 不带推理的 Grok-3
Grok-3用了 “思维链” 技术,能够像人类思考问题一样,能一步一步地去解决复杂的任务。
目前,Grok-3在数学、科学和代码生成这些领域,表现都已经超级出色了。
而且,它还有个超厉害的动态反思机制,能自己检查运算过程,发现逻辑有问题就马上修正。
Grok 3 融合了多模态 AI 技术,文本、图像、声音这些数据都能处理。
官方测试数据显示,它基本已经超越像Gemini、DeepSeek和ChatGPT这些大家熟悉的竞争对手了,Benchmarks跑分也是遥遥领先。
Grok-3曾化名chocolate,在Chatbot Arena,直接拿下第一,得分 1403,成为唯一 1400 分以上的模型,甩开Gemini2.0几条街。
这次,Grok-3的训练量是上一代Grok2的10倍。为了训练Grok-3,xAI可是下了血本,用了多达20万张GPU!
有了这么强大的算力支持,Grok3 在 MMLU 得分上飞速追赶 ChatGPT,在很多特定任务上更是把其他 AI 大模型甩在了后面。
02 带推理的 Reasoning
Grok-3此次还带来了推理模型——Grok-3 Reasoning,在回答问题时会展示出思维过程,在聊天界面直接选择「Think」模式,就可以开启了。
此外,还有「Big Brain」模式,可以让 Grok3 花费更多时间计算和推理,从而解决复杂问题。
bushi,这个界面好像有亿点点眼熟。。。
Grok-3 推理版在数学、科学、代码领域的测试也都超过了 o3 - mini high 。
在AIME 2025 这种新型数学基准测试中,Reasoning的表现也同样优秀,得分最高,碾压最近大火的DeepSeek-R1。
(数据是官方说的,具体效果怎么样,还得后续测试下🙂)
发布会上,Grok-3执行了一个太空飞船任务的 3D 动画代码。
这个任务可不简单,要从地球发射飞船,让它成功在火星着陆,然后还得算出下一次发射窗口,以便飞船能顺利返回地球。
这个过程要涉及大量数学和物理模型的计算。就拿计算航天发射窗口来说,团队之前从来没试过让大模型来处理。
经过 114s的思考,Grok-3通过数值求解开普勒定律,成功处理了复杂的计算问题,生成了完整且能运行的 3D 动画代码。
从下面这张图中,能特别直观地看到在整个任务过程中,太阳、地球、火星和飞船之间的位置关系,甚至宇航员都能根据它直接算出出舱时间和距离。
不得不说,马斯克离他的火星梦又近了一步。
另外,直播中,还用了「Big Brain」模式做了一个结合《俄罗斯方块》和《宝石迷阵》的游戏,Grok-3也是一气呵成。
xAI成立游戏工作室可以提上日程了,hhh。
03 Agent:DeepSearch
这一次马斯克还带来了智能体「深度搜索」(DeepSearch),它能在互联网和 X 平台上搜索各种信息,并把结果整理成摘要。
直播中,展示的demo是询问:下一次星舰发射是什么时候?
一顿操作猛如虎之后,Grok-3 给出回答:25年2月24日。
此次Grok-3的发布,让AI大模型领域的竞争变得更激烈了。
像OpenAI的GPT-5和GPT-4.5一直备受关注,DeepSeek凭借低训练成本和使用成本,在国内很多行业也很受欢迎。
Grok-3的出现,肯定会给它们带来不小的压力。
而且,Grok-3还计划预装于特斯拉新款Model Q车载系统,并接入Optimus人形机器人。
这种“AI+硬件”的协同策略,旨在通过特斯拉生态构建竞争壁垒。
目前,X平台的Premium + 订阅用户可以直接使用Grok-3,全新网址是 grok.com,App Store里也可以下载了。
要是想获得更多像无限量图像生成这样的功能,还有个 SuperGrok 订阅服务,每月 30 美元或者每年 300 美元就能搞定。
现在,Grok-3每天都在迭代推理功能,马斯克也放话说:一周内,Grok的所有功能都将上线!
我们拭目以待吧。
你认为马斯克的Grok-3会对AI领域带来哪些影响?
欢迎在评论区留言讨论!