10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Grok-4 震撼发布:又一个"改变游戏规则"的AI?

8小时前 AI最新动态 33 0

各种发布会上的"世界最强"、"重新定义"之类的营销词汇听多了就有点麻木了,总之这几家大模型的更新每次都会有不同的玩法升级,这次Grok-4又有什么新发现,昨天凌晨熬夜看完xAI的Grok-4发布会后,我得承认,这次马斯克确实拿出了点真家伙。

虽然发布会从11点硬生生鸽到了12点多(这很马斯克),但看完整场直播,我的第一反应是:这不是又一个ChatGPT的跟风产品,而是真正在推理能力上做出了差异化的AI助手。

推理怪兽

那个"人类最终考试"有多变态?

马斯克在发布会上介绍了一个叫"人类最终考试"(Humanity's Last Exam)的基准测试,包含2500个专家级问题,涵盖上百个学科。听起来很夸张?我去查了一下,这个测试的设计理念是:没有任何人类能在所有领域都达到博士后水平。

但Grok-4做到了。

在各种顶级基准测试中,Grok-4和Grok-4 Heavy的表现全面超越了Claude Opus 4和Gemini 2.5 Pro。特别是在ARC-AGI榜单中,Grok-4在v1版本中超过了o3,在v2版本中更是达到了o3的两倍(虽然还比不上o3-pro)。

从纸面分数到真实场景

让我印象最深的不是那些冷冰冰的测试分数,而是几个现场演示:

投注分析师:在Polymarket平台上分析2025年MLB世界大赛冠军时,Grok-4不仅看了赔率,还结合FanGraphs的数据自己计算概率,找出了市场赔率与实际概率的差异。这种"Alpha"和"Edge"的识别能力,连很多专业分析师都做不到。

创意理解:在X平台上找"xAI员工最古怪的头像",这说明它能理解"古怪"这样的主观概念。虽然找出来的头像确实很抽象,但这种主观判断能力是之前AI很难做到的。

代码生成:根据物理学提示生成两个黑洞碰撞的HTML动画,效果确实很炫酷。这种从科学概念到代码再到可视化的转换,展现了真正的跨领域整合能力。

语音模式

新的语音模式让我眼前一亮。端到端延迟减半,对话更流畅。特别是那五种新声音,包括史诗感的"Sal"和带有丰富情感的英音"Eve"。

现场演示中,Eve温柔地安抚提问者,还即兴创作了关于健怡可乐的歌剧。这种自然度和情感表达,让我想起了《她》这部电影里的AI助手。

定价策略

Grok-4需要订阅才能使用,基础版30美元/月。SuperGrok Heavy更是要300美元/月。

说实话,这个价格对个人用户来说确实不便宜。但如果你是企业用户或者重度AI使用者,这个价格其实很合理。想想看,一个月300美元,就能获得一个"学习小组"级别的AI助手,它会并行启动多个智能体共同解决复杂问题。

对比一下请一个博士级顾问的费用,这个价格突然就显得很香了。

商业场景测试

最让我印象深刻的是那个"自动售货机基准测试"(Vending-Bench)。AI需要管理库存、联系供应商、设定价格等。Grok-4创造的净值是第二名Claude Opus 4的两倍以上。

这个测试很有意思,因为它模拟的是真实的商业场景,需要长期战略规划和执行能力。这种复杂任务的处理能力,才是AI真正成为生产力工具的关键。

未来路线图

xAI公布的未来产品路线图很有意思:

  • 八月:专用编码模型

  • 九月:多模态智能体

  • 十月:视频生成模型

这个节奏很快,也很有针对性。

特别是多模态智能体,如果能像现在的Grok-4一样在推理能力上保持优势,那在实际应用中的想象空间会很大。

总结

体验完Grok-4,我觉得这不仅仅是又一个AI产品,而是真正意义上的智能助手。它在推理能力上的突破,让我们看到了AI从"会聊天"到"会思考"的质的飞跃。

虽然300美元/月的SuperGrok Heavy价格不菲,但对于需要处理复杂任务的用户来说,这个"博士级"助手的投资回报率可能会很惊人。

下一步,我准备深度测试一下它在产品管理场景中的表现。如果你也在考虑接入这位"博士级"助手,不妨先从基础版开始尝试。

毕竟,在AI快速发展的今天,早一步体验可能就是早一步获得竞争优势。

xAI官网 https://x.ai

Grok官网: https://grok.com

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Grok-4 震撼发布:又一个"改变游戏规则"的AI?
#Grok #Grok-4 #SuperGrok #xAI 
收藏 1
Windsurf 免费模型 SWE-1 深度体验:不只是编程,而是完整的软件工程革命
这是最后一篇
推荐阅读
  • 百度发布首款搭载中文 大模型的小度AI眼镜,支持边走边问、第一视角拍摄
  • Uizard:Autodesigner 2.0 AI生成式辅助UI设计工具,产品经理+UI设计
  • Manus发布!深度解读全球首个真正意义上的通用型 Agent,是否真的被颠覆
  • 学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
  • Monica内测发布内置满血版DeepSeek,集聊天、翻译、写作、思维导图、流程图、数据分析等一站式AI助手
评论 (0)
请登录后发表评论
分类精选
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
13698 4月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
10458 2月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
9882 7月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
7738 2月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
7646 2月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
7170 4月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
6784 6月前
字节全新AI编程 IDE:Trae!性能对标Cursor,标配Claude 3.5和GPT-4o,免费无限量
4751 5月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
4519 2月前
N 种 DeepSeek + X 的实用集成,DeepSeek官方整理了50+插件及多领域应用场景方案
3694 4月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Grok-4 震撼发布:又一个"改变游戏规则"的AI?
2 Windsurf 免费模型 SWE-1 深度体验:不只是编程,而是完整的软件工程革命
3 字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
4 Cursor定价翻车:Cursor 悄悄调整 Pro 方案定价,并发声明
5 Gemini CLI 大更新:多模态初露锋芒,音视频处理、Markdown 更强,开发者更顺手!
6 Desktop Extensions (DXT):Anthropic又出AI Agent神器,一键式MCP服务器安装工具
7 Pro plus?Pro+?Cursor 悄悄上新“中杯”套餐,定价60/月
8 Cursor Agents 上线 Web & 移动端!随时随地远程调 Agent 写代码
9 谷歌放大招!免费开源的 Gemini CLI,冲着Claude Code来的!
10 Kimi深度研究:Kimi发布首个Ai Agent,模型即 Agent
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联