推特上喊了快 1个月的 Gemini 3「马上发布」,昨晚狼真的来了!

没有任何多余的废话,打开 Model Card,满眼写着的只有两个字:碾压。连 Sam Altman 都久违地献上了自己的点赞。
这一次,那个曾经定义了 Transformer、如今「All in Gemini」的巨人,真的杀回来了。
全面霸榜的推理怪兽
事实证明,Google 没有让等待的人失望。Gemini 3 Pro 的发布再一次定义了 SOTA(State-Of-The-Art)。

根据 Google 披露的数据,Gemini 3 Pro 在推理、多模态、Agent 工具使用等关键基准上,实现了全方位的霸榜。
- 数学能力的「地狱级」碾压: 在数学竞赛的「地狱模式」MathArena Apex 里,当包括 GPT-5.1 在内的其他大模型还在 1% 上下挣扎时,Gemini 3 Pro 直接干到了 23.4%。这就像小学生还在掰手指算加减法,旁边的 Gemini 3 已经开始徒手搓火箭了。
- 人类智力的天花板: 在 Humanity’s Last Exam(人类最终大考)中,Gemini 3 Pro 轰出了 37.5% 的高分(GPT-5.1 为 26.5%)。在开启工具使用后,更是达到了 45.8%。
- 视觉智能的质变: 在衡量屏幕理解能力的 ScreenSpot-Pro 测试中,GPT-5.1 得分仅为 3.5%(基本是瞎子),而 Gemini 3 Pro 高达 72.7%。这是近乎 20 倍 的能力碾压!

但这还不是极限。Google 还藏了一手 Gemini 3 Deep Think(深度思考模式)。
在不使用任何工具的情况下,Deep Think 模式在 Humanity's Last Exam 上的得分飙升至 41.0%。在 ARC-AGI-2 上更是取得了前所未有的 45.1% 的得分。这意味着模型在处理复杂学术问题时,已经具备了完全不同的理解深度。

颠覆性的交互体验:生成式 UI 与 Vibe Coding
Gemini 3 的野心不止于跑分,它正在从 Chatbot 进化为 Generative App。
首创「生成式界面」(GenUI):以前的 AI 给你文字或代码,现在的 Gemini 3 能直接为你生成一个交互界面。比如搜索「RNA 聚合酶工作原理」,它不再扔给你一堆链接,而是利用强大的推理能力,即时生成(Generated on the fly) 一个沉浸式的互动 3D 分子模型。你不仅可以浏览,还能点进去和里面的元素交互。

Vibe Coding:理解你的「直觉」Gemini 3 引入了「Vibe Coding」概念。你不需要清楚地描述开发要求,它能捕捉你的开发风格和模糊意图。只用一句话,Gemini 3 就能通过感知你的「编码直觉」,直接生成全功能的应用程序。
实测了几个案例,前端能力简直炸裂:
- 复刻 Web OS: 仅仅输入一段 Prompt,要求创建一个类似 Windows 的 Web OS。Gemini 3 Pro 写了将近 2 分钟,结果真的生造了一个系统!从终端、代码编辑器到画图工具,大部分功能竟然都是可用的。
- 复古 3D 游戏: 编写一款具有丰富视觉效果的太空飞船游戏,一句话搞定(from 机器之心」
Google Antigravity
有了最强的模型,Google 直接在应用层「掀桌子」,扔出了小王炸——Google Antigravity。
这不仅仅是一个 IDE,它是 Google 定义的 Agent-first(智能体优先) 开发平台。在这里,Gemini 3 化身为拥有编辑器、终端和浏览器完整权限的「执行合伙人」。
Antigravity 配置了一个「模型军团」协同作战:
- Gemini 3: 大脑,负责推理和写代码。
- Gemini 2.5 Computer Use: 手眼,控制浏览器进行 UI 验证。
- Nano Banana: 美工,生成图像和 UI 素材。
这种打通底层模型到顶层交互的闭环体验,对于 Cursor 等现有编辑器来说,无疑是一次降维打击。Agent 可以代表你自主规划并执行复杂的端到端软件任务,甚至自己打开浏览器验证 UI,发现报错自己修。
致命短板:写作能力惨遭 Claude 4.5 吊打
虽然代码和推理能力强到让人头皮发麻,但在写作能力上,Gemini 3 Pro 却让人大跌眼镜。
实测显示,在科普文章写作方面,Gemini 3.0 的表现几乎是在「御三家」里垫底。
以「基于上下文工程技术文章写科普文」为例:
- Claude 4.5 Sonnet: 写了 3000 字,场景描述抓人,用咨询顾问做类比把抽象概念讲透,结尾还能升华认知。
- Gemini 3.0: 输出只有 1000 多字。虽然开头用了「你有没有过这样的经历」的套路,但每个观点点到为止,缺乏展开和让人眼前一亮的类比。
更让人抓狂的是,Gemini 3.0 依然保留了老毛病:喜欢在中文后面加括号注释英文单词(如「提示词工程(Prompt Engineering)」),读起来非常割裂,像是一份没翻译完的文档。
相比之下,Claude 4.5 Sonnet 理解什么时候该铺垫、什么时候该直给,这一点目前 Gemini 3 确实还做不到。
谷歌王者归来
Gemini 3 的发布,释放了一个强烈的信号:算力霸权依然存在。
Gemini 3 Pro 是使用 Google TPU 从头开始训练的。当全世界都在等英伟达 GPU 时,Google 坐在自家的 TPU 矿山上,拥有极高的带宽内存和算力冗余,这给了它肆意扩张参数规模的底气。
从底层的 TPU 硅基霸权,到中间层的 Antigravity 开发生态,再到顶层的生成式 UI,Google 展示了一个只有巨头才能构建的严丝合缝的未来。
虽然写作能力略显拉胯,但在代码、推理和多模态交互上,Gemini 3 确实已经杀疯了。
对于开发者而言,会不会写前端、会不会调框架可能真的不重要了。重要的是你能不能把脑子里的东西,翻译成精准的 Prompt。
Gemini 3 现已全面开放,即日起可通过 Google AI Studio 体验。
https://aistudio.google.com/
https://gemini.google.com/
至于它到底能不能终结「最好的 LLM」之争?让子弹(和服务器)再飞一会儿。