
虽然发布会从11点硬生生鸽到了12点多(这很马斯克),但看完整场直播,我的第一反应是:这不是又一个ChatGPT的跟风产品,而是真正在推理能力上做出了差异化的AI助手。
推理怪兽
那个"人类最终考试"有多变态?
马斯克在发布会上介绍了一个叫"人类最终考试"(Humanity's Last Exam)的基准测试,包含2500个专家级问题,涵盖上百个学科。听起来很夸张?我去查了一下,这个测试的设计理念是:没有任何人类能在所有领域都达到博士后水平。
但Grok-4做到了。
在各种顶级基准测试中,Grok-4和Grok-4 Heavy的表现全面超越了Claude Opus 4和Gemini 2.5 Pro。特别是在ARC-AGI榜单中,Grok-4在v1版本中超过了o3,在v2版本中更是达到了o3的两倍(虽然还比不上o3-pro)。

从纸面分数到真实场景
让我印象最深的不是那些冷冰冰的测试分数,而是几个现场演示:
投注分析师:在Polymarket平台上分析2025年MLB世界大赛冠军时,Grok-4不仅看了赔率,还结合FanGraphs的数据自己计算概率,找出了市场赔率与实际概率的差异。这种"Alpha"和"Edge"的识别能力,连很多专业分析师都做不到。
创意理解:在X平台上找"xAI员工最古怪的头像",这说明它能理解"古怪"这样的主观概念。虽然找出来的头像确实很抽象,但这种主观判断能力是之前AI很难做到的。
代码生成:根据物理学提示生成两个黑洞碰撞的HTML动画,效果确实很炫酷。这种从科学概念到代码再到可视化的转换,展现了真正的跨领域整合能力。
语音模式
新的语音模式让我眼前一亮。端到端延迟减半,对话更流畅。特别是那五种新声音,包括史诗感的"Sal"和带有丰富情感的英音"Eve"。
现场演示中,Eve温柔地安抚提问者,还即兴创作了关于健怡可乐的歌剧。这种自然度和情感表达,让我想起了《她》这部电影里的AI助手。
定价策略
Grok-4需要订阅才能使用,基础版30美元/月。SuperGrok Heavy更是要300美元/月。

说实话,这个价格对个人用户来说确实不便宜。但如果你是企业用户或者重度AI使用者,这个价格其实很合理。想想看,一个月300美元,就能获得一个"学习小组"级别的AI助手,它会并行启动多个智能体共同解决复杂问题。
对比一下请一个博士级顾问的费用,这个价格突然就显得很香了。
商业场景测试
最让我印象深刻的是那个"自动售货机基准测试"(Vending-Bench)。AI需要管理库存、联系供应商、设定价格等。Grok-4创造的净值是第二名Claude Opus 4的两倍以上。
这个测试很有意思,因为它模拟的是真实的商业场景,需要长期战略规划和执行能力。这种复杂任务的处理能力,才是AI真正成为生产力工具的关键。
未来路线图
xAI公布的未来产品路线图很有意思:
-
八月:专用编码模型
-
九月:多模态智能体
-
十月:视频生成模型
这个节奏很快,也很有针对性。
特别是多模态智能体,如果能像现在的Grok-4一样在推理能力上保持优势,那在实际应用中的想象空间会很大。
总结
体验完Grok-4,我觉得这不仅仅是又一个AI产品,而是真正意义上的智能助手。它在推理能力上的突破,让我们看到了AI从"会聊天"到"会思考"的质的飞跃。
虽然300美元/月的SuperGrok Heavy价格不菲,但对于需要处理复杂任务的用户来说,这个"博士级"助手的投资回报率可能会很惊人。
下一步,我准备深度测试一下它在产品管理场景中的表现。如果你也在考虑接入这位"博士级"助手,不妨先从基础版开始尝试。
毕竟,在AI快速发展的今天,早一步体验可能就是早一步获得竞争优势。
xAI官网 https://x.ai
Grok官网: https://grok.com