首页产业新闻 “地球上最聪明AI”Grok 3发布，头部大模型之争愈演愈烈

“地球上最聪明AI”Grok 3发布，头部大模型之争愈演愈烈

产业新闻 1年前(25-02-18) 225

北京时间2月18日中午，埃隆·马斯克的人工智能初创公司xAI发布了Grok 3大模型，马斯克称之为“地球上最聪明的人工智能”。Grok 3的发布，势必将现在已经炙热的模型之战推向新的高潮。

Grok3的现场演示

在当天的直播中，马斯克与该公司的三位工程师一起进行了现场演示，包括使用Grok3帮助火星飞船计算航天发射窗口，以及把俄罗斯方块和消消乐两款游戏“融合成一款”等。

尤其是工程师仅用“开发结合俄罗斯方块和宝石迷阵玩法的2D游戏”这一自然语言指令，Grok3完成核心代码生成与调试的演示令人印象深刻。

在演示的过程中，马斯克要求使用Grok 3使用pygame组件设计一款游戏，把俄罗斯方块和宝石迷阵缝合到一起。

同时还提示代码可能会很长，需要保存到一个文件当中，运行成功后，生成的游戏即保留了俄罗斯方块的经典玩法，而且还加入了“同色消除”的新规则。

在发布会上，马斯克放话，今后Space X的发射任务，包括2026年火星探索任务，都将会借助Grok 3进行AI辅助。

随后，在场的工程师要求Grok 3现场生成一段太空发射3D动画的代码，而在Grok-3生成代码后，马斯克团队运行这段代码，之后画面上显示出了飞船在地球和火星间往返的动画的演示，突出了Grok-3的编程能力，这对AI模型理解复杂物理知识的要求非常高。

马斯克对此表示，我们非常高兴能够推出 Grok-3，我们认为，在很短的时间内，它的功能比Grok-2强大一个数量级。这要归功于一支不可思议的团队的辛勤工作，我很荣幸能与这样一支优秀的团队合作。此外，他还预测，三年内，计算机将在各方面打破人类水平，实现诺贝尔奖级别突破。

推理能力超竞争对手

发布会演示显示，在数学推理、科学逻辑推理等多方面的性能表现上，Grok3和Grok-3 mini都超过或媲美Gemini、DeepSeek和ChatGPT等对手，此外xAI还推出了功能更为强大的Grok3 Thinking推理模式。

具体表现在Grok3 在 AIME'24（美国数学竞赛）、GPQA（研究生水平科学知识问答能力的基准测试）等测试中均取得了比 Gemini-2 pro、DeepSeek-v3、Claude 3.5 Sonnet 和 GPT-4o 更好的效果。

尤其在推理方面，Grok 3 Reasoning 和 Grok 3 mini Reasoning 在 AIME'24、GPQA 等测试中取得了压倒性的优势，最高分达到 96 分，超过了 o3 mini(high)、o1 和 DeepSeek-R1 等前沿模型。甚至在最新的 AIME 2025 评测中，Grok3 推理系列模型更是达到了 90 及以上的分数，稍微领先 o3 mini(high) 的 87 分。

此外，在 Chatbot Arena 评估中，Grok-3 的得分更是达到了 1400 分，同样超过了 Gemini 系列和 chatgpt-4o 和 DeepSeek-R1。

值得一提的是，GPT-4o和Gemini相比，Grok 3在处理复杂问题时不仅能给出正确答案，还能详细解释解题思路，帮助用户理解背后的逻辑。

除了数学、编程、推理能力超强外，Grok3的多模态能力也是提升明显，另外，Grok 3引入了DeepSearch，它能够扫描互联网和X平台（原Twitter），为用户提供信息摘要，帮助用户查找最新的科技信息。

在发布会现场，xAI团队预测2025年NCAA“疯狂三月”篮球赛的全部胜负结果，最终Grok 3给出了它认为的2025年NCAA冠军，具体预测正确与否，答案即将在3月揭晓。

xAI团队在直播中展示称，在训练Grok的过程中，团队搭建了大型算力集群，并克服了散热、电力等问题带来的挑战，用了122天让首批10万张GPU投入使用并正常运行，后续还计划将集群规模继续扩大一倍。

最后，马斯克表示，未来，最快一周后Grok 将获得“语音模式”。几周后，Grok 3模型将与 DeepSearch功能一起出现在xAI企业的API中。而当下一个版本完全发布时，我们将开源Grok的上一个版本。

颇具挑战意味的是，就在Grok 3发布前数小时，OpenAI首席执行官兼联合创始人SamAltman表示，对于高要求的测试者来说，试用GPT-4.5带来的AGI的感受体验，远比我预期的要深刻得多，看来GPT-4.5已经进入测试阶段，离正式发布也不远了。

可以预见，随着Grok-3的发布，头部AI大模型的竞争将愈演愈烈。（御风）

“地球上最聪明AI”Grok 3发布，头部大模型之争愈演愈烈

相关推荐

热门文章

侧栏广告

文章目录

标签列表