当前位置：首页 » AI最新动态

Anthropic 联合创始人：我们对行业趋势的一些关键判断

3月前 AI最新动态 627 0

2025 年下半年，无论是在国内还是国际上，大模型的发展趋势似乎变得愈发扑朔迷离。

最近几个月，各种前沿模型都在疯狂提升编程能力，比如国内的 Kimi K2、刚上线的 Qwen3-Coder，还有 OpenAI 也说他们的新模型在编程方面会有重大突破。

与此同时，我们也看到整个行业的训练范式正在发生转变。大模型不再一味依赖预训练，而是逐步迈向以强化学习（RL）为核心的新一代训练模式。

有人认为大模型发展已经进入瓶颈期，但事实真的如此吗？

Anthropic 联合创始人 Benjamin Mann 最近参与了知名科技播客 Lenny 的深度访谈，一个多小时。

他分享了自己关于行业的发展判断，谈到了具体的技术路线，也回应了关于 Meta 高价挖人对 Anthropic 的影响。

无论你的关注点是技术趋势，还是模型能做什么，这期访谈都值得一看。

1、抢人大战背后的选择题

主持人：今天我的嘉宾是 Benjamin Mann，他是 Anthropic 联合创始人，也是产品工程团队的技术负责人。在加入 Anthropic 之前，Benjamin 是 OpenAI GPT-3 的主要架构师之一。

Ben，欢迎来到播客，我有无数问题想问你。我想从最近发生的一个大新闻聊起，扎克伯格在用重金四处挖顶级 AI 研究员，听说最高给到了一亿美元的薪酬。

我想你肯定对这事深有感触。你在 Anthropic 内部看到什么？你怎么评价这样的策略？你觉得接下来会怎么样？

Benjamin Mann：是啊，我觉得这正说明了时代变了。我们正在开发的技术非常有价值，公司增长非常快，行业里其他公司也在迅速增长。

Anthropic 受到这次挖人事件的影响很小，因为我们团队都非常有使命感。

大家即便收到了这些 Offer，也会说，在 Meta，我最好的结果就是赚到钱；而在 Anthropic，我有机会影响人类的未来，让 AI 和人类共同繁荣。

所以对我来说，这根本不难选。当然，不同人的生活情况不同，有些人会觉得更难选。对于那些最后接受了这些高薪 Offer 的人，我完全可以理解他们的选择，但如果是我，我不会接受。

主持人：我们等会还会聊到你刚才提到的这些高薪 offer。你觉得，像一亿美元签约金这种事，是真的存在的吗？还是只是传说？你见过吗？

Benjamin Mann：我几乎可以确定这是真的。大家想想个人对公司发展的影响有多大，比如在我们这里，只要能把推理效率提升 10% 或者 5%，对公司创造的价值就不可思议。

所以，公司愿意给个人开出四年一亿美元的薪酬方案，其实对公司来说还很划算，因为这个人能为公司带来的价值，远远超过这笔钱。所以我觉得现在这个时代的规模和增长速度，是以前从未有过的。

而且未来只会越来越疯狂。如果我们把这种指数级增长往前推，现在全球 AI 行业每年大概投入三千亿美元，再过几年，经过几轮翻倍，投入会到万亿美元规模。

到那时，一亿美元就真的只是小数目。这些数字真的很难想象。

2、大模型并没有进入瓶颈期

主持人：很多人觉得 AI 发展现在有点到顶了，好像新模型也没有以前那种大跨步的进步。但我知道你不这么认为，你怎么看？

Benjamin Mann：有趣的是，每隔六个月左右，就会出现这种 AI 发展到头了的说法，但其实从没发生过。我希望大家在看到这种说法时，都认为这是在胡扯。

我觉得进步其实是在加速。以前新模型一年发布一次，现在靠后训练技术的提升，我们能每一到三个月就发一版新模型。所以进展是在加快的。只是有种时间被压缩的错觉。

Dario（Anthropic CEO）打过这样一个比方，就像一个人坐在接近光速的飞船里旅行，在飞船上觉得只过了一天，但地球上其实已经过去了五天。

我们现在 AI 发展的速度就像这种时间膨胀现象，我们自己觉得时间过得很快、进展很快，但外面的人却觉得变化没那么明显，好像进展慢下来了，其实只是因为节奏太快，大家的感受被拉长了。

如果我们看 Scaling Law ，它其实一直都成立。我们确实需要从预训练转向强化学习，并把模型做得更大，才能让它继续奏效。

但我觉得这有点像半导体行业，不再只是比拼芯片上塞多少晶体管，而是拼数据中心能提供多少算力。

所以我们需要稍微调整下关注点，但这是世界上少有的，能跨越几十万倍量级仍然成立的规律。就连很多物理定律都没这么稳定，这点真的很惊人。

主持人：太让人震惊了。你意思是说，现在新模型发布得更频繁了，所以大家总是和上一个比，感觉没有那么大进步。

但如果回到一年才发一个模型的时代，每次都是巨大飞跃。其实只是我们看到的迭代太多，容易忽略了每次的进步。

Benjamin Mann：如果对 AI 发展慢了这种说法再宽容一点，确实有些任务已经饱和，比如从一份已经有表单字段的文档中提取信息，这种事 AI 早就能 100% 搞定了。

有一个很棒的图表，在由牛津大学团队主导的非营利在线出版物 Our World in Data 上，每次有新基准测试发布，6 到 12 个月内就被 AI 完全掌握。

所以真正的限制也许在于，我们能不能提出更好的评测标准和目标，才能让大家看到 AI 的提升。

主持人：你对 AGI 有非常具体的定义方式。

Benjamin Mann：我觉得 AGI 是个挺模糊的词，现在内部已经很少用了。我更喜欢变革性 AI （Transformative AI）这个词。

重点不是它能不能做所有人类能做的事，而是它有没有在客观上推动社会和经济的巨大转型。

有一个很具体的衡量标准叫经济图灵测试（Economic Turing Test），不是我发明的，但我很喜欢。

意思是，如果人类让一个 AI Agent 干某份工作一到三个月，然后决定雇用它，最后发现它其实是台机器而不是人，这就算通过了这份工作的经济图灵测试。

接下来我们可以像衡量购买力平价（Purchasing Power Parity）或通货膨胀那样，用一个可量化的方式去推广这个测试思路。

比如说就像有物价篮子，我们可以设定一个岗位篮子，如果这个 AI 能通过其中按薪资加权后一半以上的岗位测试，那我们就可以认为变革性 AI 已经到来了。

具体的标准倒无所谓，关键是，只要达到这个门槛，社会的 GDP 和就业结构就会发生巨大变化。因为社会机构和组织惯性很大，变革很慢，但一旦技术成熟，就是全新时代的开始。

3、我们该如何面对 AI 带来的就业和社会结构巨变？

主持人：顺着这个话题，你们 CEO Dario 最近说 AI 会取代一半的白领工作，失业率可能会上升到 20%。

我知道你对于 AI 对职场的影响甚至表达得更直接，你觉得很多人其实还没意识到 AI 已经带来的变化。你觉得大家忽略了哪些 AI 对就业影响的地方？

Benjamin Mann：从经济学角度看，失业其实有好几种，一种是工人没有掌握所需技能，无法胜任经济需要的工作；另一种是这些工作本身彻底消灭了。我觉得未来实际上是两种情况的结合。

但如果想象一下二十年后的世界，那个时候我们早已跨过奇点，我很难想象到时候资本主义还会保持现在这个样子。

如果我们把事情做好，我们会拥有安全且对齐的超级智能。像 Dario 说的，拥有有爱心的机器、数据中心里的天才国度，还能加速科学、技术、教育、数学等方面的正向变革，这会非常棒。

但这也意味着，在一个几乎没有劳动成本，想做什么都能让专家帮我们做的极度丰裕的世界里，所谓工作到底是什么？

所以我觉得，从现在人们有工作，资本主义还能正常运转，到二十年后一切天翻地覆，这中间会有一个让人忐忑的过渡期。

之所以叫奇点，就是因为到了那一步之后，根本无法准确预测接下来会发生什么，变化太快、太大，难以想象。

所以如果站在极限视角，其实很容易说，希望到时候我们能找到答案。在极度丰裕的世界里，也许工作本身并不可怕。我觉得关键就是要确保过渡期顺利度过。

主持人：这里有几个点我想追问。一个是，现在很多人都听说过这些说法，新闻里也常有，但大多数人可能没实际感受到，也没看到这种变化。

所以总觉得，好像我的工作还挺正常，没啥变化。你觉得现在已经发生了哪些事，是大家还没看见或者没理解的？

Benjamin Mann：我觉得部分原因是大家真的很难理解指数级的变化。

如果我们看指数曲线，最开始看起来很平，几乎是零，突然某个拐点之后变化就极快，然后就是垂直上升。这其实就是我们一直在经历的路径。

我大概在 2019 年 GPT-2 出来时就有这种感觉了，那时我觉得，这就是通往 AGI 的路。但对很多人来说，他们是等到 ChatGPT 出现才感受到，哇，一切变了。

所以我不觉得社会大部分领域会立刻大范围转变，我觉得大家现在的怀疑很正常。

我觉得这种怀疑很合理，这其实就是对进步的线性看法。

但有些领域变化确实很快，比如客服，我们和 Fin.com、Intercom 这些合作伙伴合作，自动化客服解决率能达到 82%，完全不需要人介入。

软件工程上，Claude Code 团队大约 95% 的代码都是 Claude 写的。换句话说，我们能写的代码量变成原来的十倍、二十倍，所以更小的团队也能产生更大影响。

客服方面也是类似的。你可以说是有 82% 的客户问题被解决了，但这实际上意味着，人类客服可以把精力集中在那些更难处理的问题上。

在过去，比如五年前，他们可能会放弃这些工单，因为处理这些问题需要花太多精力，而且还有太多其他问题要忙。所以我觉得在短期内，劳动力总量会大幅增长，人们能完成的工作量也会显著提升。

我从没见过任何一家高速增长公司的招聘经理说不想招人。这是比较乐观的一面，但对于技能较低、进步空间有限的岗位，确实会有很多被替代。这是我们整个社会都要提前面对和解决的问题。

主持人：我还想继续聊这个问题，但另外我也想帮大家搞清楚：面对这样的未来世界，普通人要怎么提升自己的竞争力？

很多人听了这些内容会觉得有点焦虑，想提前做准备。你有没有什么建议，帮大家提前为未来做好准备、让自己不被 AI 替代？有没有什么你见过别人做得不错的，你也推荐大家去尝试的？

Benjamin Mann：其实就连我自己，身处这个变革中心，也不能说完全不会被 AI 替代。就算是我自己，其实也有这种被取代的焦虑感，总有一天会轮到每个人。

主持人：它终究会波及到我们每一个人，哪怕你也是，Ben。

Benjamin Mann：你也是，Lenny。

主持人：我们已经说太多实话了。

Benjamin Mann：但说到过渡期，我觉得我们确实能做一些事，最重要的就是要大胆去用这些新工具，愿意去学习。那些把新工具当老工具用的人，基本都不会成功。

比如写代码，很多人习惯了自动补全、用聊天机器人问问题。

但用 Claude Code 特别高效的人和用得一般的人，最大区别就在于：敢不敢提很大胆的需求？第一次不成功，敢不敢多试三次？

我们发现，完全重头再来多试几次，成功率会比你一直死磕之前那个失败的方法高出很多倍。

虽然我拿编程来举例，但其实编程本身就是受 AI 影响最大，变化最快的领域之一。

我们内部也看到，法务和财务团队用 Claude Code 收获巨大。我们接下来会开发更好的界面，让他们不用在终端里硬着头皮上手。

但现在他们已经在用 Claude Code 审阅合同、用它跑大数据分析查客户和收入。所以其实就是要敢迈出那一步，哪怕一开始觉得有点怕，也要勇敢试试。

主持人：所以你的建议就是用起来。这也是所有人都在说的，真的要去用这些工具。比如你就多在 Claude Code 里试试，像你说的，可以比你本来设想的更大胆一些，因为说不定它真的能帮你做到。

你建议多试三次，是不是说它可能第一次不对，多换种问法，还是说就多试几次就行？

Benjamin Mann：你其实可以直接问同一个问题，因为这些模型本身是有随机性的，有时候能解决，有时候不行。

我们看每个模型文档里都会有一次通过和 N 次通过的对比，原理就是多试几次，有时候就成功了。这听起来很傻，但确实有用。

如果我们再聪明一点，可以总结下自己已经试过什么、哪里不行，然后换个思路提问，这样也能提高成功率。

主持人：所以说到底，大家常说的一个人不会马上被 AI 取代，而是会被更会用 AI 的人取代，这个说法现在更贴切了？

Benjamin Mann：我觉得更像是我们所在的团队能做的事情会大大增加。我们现在招聘没有任何放缓。

有新人在入职时问过，既然以后都会被 AI 替代，你们为什么还要招我？答案就是，接下来几年非常关键，现在还没到全面替代的阶段。

我刚才说了，我们还处在指数曲线最平的那段。所以现在优秀的人才极其重要，这也是我们加速招人的原因。

4、孩子要保持创造力和好奇心

主持人：我换个问法。你站在 AI 最前沿，也有自己的孩子。你知道 AI 未来的发展趋势，刚才也谈了这么多，你会怎么教育你的孩子，让他们适应未来 AI 世界？

Benjamin Mann：我有两个女儿，一个一岁，一个三岁。现在其实还在最基础的阶段。我三岁的女儿已经能和 Alexa Plus 聊天，回答她提的问题，给她放音乐之类的，她很喜欢。

不过更广义地说，她去的是蒙特梭利学校，我很喜欢蒙校强调好奇心、创造力和自主学习。

如果是在十年前、二十年前，我有个孩子，可能会想着让她进名校，参加各种课外活动什么的。但现在，我觉得那些都无所谓了。我只希望她快乐、有思想、好奇、善良。

蒙特梭利确实做得很好，他们还会一天到头给我们发消息。有时候说你家孩子和别的小朋友吵架了，情绪很激动，但她尝试用语言表达自己。

我很喜欢这一点，我觉得这才是最重要的教育。那些知识和事实反倒会变得没那么重要了。

主持人：我自己也非常喜欢蒙特梭利教育。我现在正想让我的孩子去蒙特梭利学校，他两岁了，所以我们其实也是走在同一条路上。

每次我问那些在 AI 最前沿工作的人，最应该让孩子学会什么技能，好奇心总是被提到最多。我觉得这是很有意思的结论。

还有你提到善良，这点也很重要，尤其是面对未来 AI 主宰，我们要善待它们。还有创造力，这个倒是不常被提到。

5、为什么我们离开 OpenAI 自己干？

主持人：我想换个方向，聊回 Anthropic 的起点。大家都知道，你和几位合伙人是在 2020 年底离开 OpenAI，创办了 Anthropic。

你之前聊过为什么离开，你们当时看到的东西。我很好奇，你愿意再多讲一点吗？当时在 OpenAI 你到底看到了什么，经历了什么，让你觉得必须得自己干？

Benjamin Mann：给听众们介绍下，我曾经参与过 OpenAI 的 GPT-3 项目，是那篇论文最早的几位作者之一。

我还为微软做过很多产品演示，帮助他们下决心投资了十亿美元。把 GPT-3 技术迁移到微软的系统，让他们能在 Azure 上服务这个模型。我当时既做了研究，也参与了产品工作，做了很多不同的事。

OpenAI 有件事很特别，就是我在的时候，Sam 常说公司有三大团队，要互相制衡，分别是安全团队、研究团队和应用创新团队。每次听到这个说法，我就觉得不太对。

公司的使命是让 AGI 的转型变得安全，造福人类，这其实和 Anthropic 的使命一模一样，但内部感觉这些方向总是充满矛盾和拉扯。等到真正遇到关键时刻，我们觉得安全其实并不是最优先的。

我可以理解为什么他们会这样，比如觉得安全问题很容易解决，或者认为不会有多大影响，或者觉得极端负面结果发生的概率微乎其微，那我自然会做出那样的选择。

但 Anthropic（当时还没成立，其实就是 OpenAI 各安全团队的负责人）这帮人，都觉得安全尤其是在边缘情况下特别重要。

其实现在全世界真正研究 AI 安全的人也很少，虽然我刚才说 AI 行业一年三千亿美金投入，但也许全世界真正在搞安全的还不到一千人，这其实挺夸张的。这也是我们选择离开的根本原因。

我们希望有一个组织，可以站在前沿做最基础的研究，同时能把安全放在一切之上。

事实证明这对我们来说很有价值，其实一开始我们也不知道安全研究能不能带来突破，比如那时我们尝试了很多通过辩论做安全的方法，模型能力根本不够，所有努力几乎没有什么成果。

但现在，这套方法就已经开始奏效，还有很多我们早年就想做，直到现在才有成果的办法。所以本质上问题就是，安全到底是不是第一优先？后来我们也逐渐明确一点，能不能同时做到安全与前沿？

比如在拍马屁这个问题上，我觉得 Claude 是拍马屁最少的模型，因为我们真的花了大量精力做真正的对齐，不是只去追求用户参与度这种 KPI，或只要用户说好就是好。

6、安全和进步，不是冲突，而是双赢

主持人：我们来聊聊你刚才提到的这个矛盾吧，就是安全和进展之间的冲突。我知道你花了很多时间在安全上，这也是你思考 AI 的核心之一。我想先问，你是如何在保证安全的同时，又不被行业落在后面的？

Benjamin Mann： 一开始我们也以为只能二选一。但后来发现，其实这两者反而能相互促进，甚至是双赢，就是一个做得好能帮助另一个。

比如 Opus 3 出来后，我们终于把模型能力做到前沿，用户特别喜欢它本身的性格和个性。这其实就是我们对齐研究的直接成果。

Amanda Akeel 还有其他同事投入了很多努力，去琢磨什么才叫有用、实事求是和无害，怎么让 AI 在面对棘手对话时也能体面回应。

比如拒绝用户时，怎么让对方理解原因，而不是简单地把人拒之门外。比如会说，这个我帮不了，也许你可以咨询医生或者也许你不应该试图制造生物武器之类的。所以这是很重要的一部分。

还有另一个就是宪法 AI（constitutional AI），我们列了一套用自然语言写的原则，让模型学会我们希望它怎么做。

这些原则有的取自联合国人权宣言，有的参考了苹果的隐私政策、服务条款，还有很多我们自己生成的内容。这样我们能真正用原则做决策，不只是交给随机评审员来判定。

客户也很喜欢，因为他们可以直接看到那份清单，然后觉得，对，这家公司、这个模型靠谱。

主持人：我会信任这样的产品。你刚才提到 Claude 的性格其实和安全密切相关，这点很有意思。

我想大部分人没意识到，AI 的性格其实是你们在做价值对齐、安全时主动灌输进去的，对吧？比如宪法 AI 这种工作。

Benjamin Mann：没错，正是这样。乍一看，性格好像跟防止极端风险毫无关系。但归根结底，这其实是让 AI 理解人真正想要什么，而不是嘴上说什么。

我们不想要许愿精灵的那种效果，人们说什么它照做，结果反而害了人。我们希望 AI 能明白人类的本意，然后真正帮人类实现那个目标。所以这两者其实关系非常大。

7、宪法 AI：把三观写进模型里

主持人：你能多讲讲宪法 AI 吗？比如你们是怎么把这些规则、价值观直接写进模型里的？你提到联合国人权宣言什么的，能具体说说怎么做吗？

因为核心就在于，这些规则和价值观是在模型训练阶段就直接融入进去的，不是后来临时加上去的。

Benjamin Mann：我简单介绍一下宪法 AI 是怎么运作的。举个例子，模型收到一个输入，要生成一个输出。这是在做安全、有用、无害性训练前的默认表现。

比如说，有人让它写一个故事。宪法原则里可能包括人应该友善、不能有仇恨言论、如果别人信任你给了敏感信息，不要泄露。有些原则与这个任务相关，有些则不适用。

首先我们要确定哪些原则适用，然后让模型自己先生成一个回答。接着判断这个回答是否符合相关宪法原则。如果符合，那就什么都不改；如果不符合，就让模型自我批评、自我重写答案，按照原则进行修改。

最后我们把中间批评和修改的过程省略掉，让模型以后直接输出正确答案。这个过程其实很简单，希望它像联合国一样透明。

主持人：确实够简单了。

Benjamin Mann：核心就是让模型递归地改进自身，不断对齐我们认定的价值观。我们也不觉得这种标准应该由旧金山一小群人决定，这应该是全社会共同讨论的事，所以我们也把宪法公开了。

我们也做了很多研究，尝试定义一个集体共识的宪法，去问很多人他们重视什么、他们希望 AI 模型应该以什么方式表现。但这仍然是一个持续探索的过程，我们一直在不断改进。

8、我们现在的任务，是防范最坏的可能

主持人：我想把视角拉远一点，聊聊为什么你这么在乎这个问题？你一开始怎么下定决心，把全部精力都投入在 AI 安全上？这也成了 Anthropic 比任何公司都更核心的使命。

现在虽然大家都谈安全，但你说其实全世界真正做这事的可能还不到一千人。我觉得你算是这金字塔尖上的人了。为什么这件事对你来说这么重要？你觉得别人忽略了什么？

Benjamin Mann：我从小读了很多科幻小说，这让我习惯用很长远的眼光去思考问题。

很多科幻书里描绘的都是那种人类已经扩展到多个星系的世界，文明高度发达，用智能机器人建造围绕太阳的巨型结构。

所以对我来说，从那样的想象出发，去设想机器会思考这件事，其实并不是特别跳跃的想法。

但大约 2016 年我读了 Nick Bostrom 的《超级智能》那本书，才第一次让我觉得这事变成现实。

他描述了，如果用我们那时常用的优化方法来训练 AI 系统，要想让它们和人类价值观保持一致有多难，甚至连理解人类的价值都很难。

后来我发现，其实这个问题没我最初想的那么难。因为像现在的语言模型，已经能够在很大程度上真正理解人类的价值观了。虽然问题还没有完全解决，但我现在比以前更有信心了。

但自从看了那本书，我立刻决定要去 OpenAI。所以我去了。那时候 OpenAI 只是个很小的研究实验室，基本没啥名气。

我之所以知道，是因为我的朋友认识 Greg Brockman，他当时是 CTO。那时候 Elon 在那，Sam 其实还没真正进组，组织也完全不是现在这样。

但随着时间推移，我觉得关于安全的讨论变得越来越具体了。

我们刚创办 OpenAI 的时候，其实还不知道怎么才能实现 AGI，当时我们甚至想，也许需要在荒岛上放一堆 RL Agent 互相竞争，搞不好意识就自己冒出来了。

但自从语言模型开始有效果之后，发展的路线就越来越清晰了。现在我对挑战的理解，和《超级智能》这本书里讲的也不太一样。

《超级智能》更多在说我们怎么把一个像神一样的东西关在盒子里，不让它跑出来。

但语言模型的情况却完全不同，又好笑又吓人，因为我们看到很多人反过来是主动把神放出来，还热情地说，来吧，你可以用整个互联网，给你我的银行账号，想干嘛就干嘛。

这种态度和《超级智能》里的气氛完全不一样。但我必须澄清，现在还没到特别危险的地步。

我们有一个负责任扩展政策，定义了 AI 安全的不同等级。我们会判断每个模型能力水平对社会的风险。

现在我们觉得自己大约在 ASL 3 级，也就是有一点伤害风险，但还不算大。ASL 4 开始会涉及如果被坏人利用，可能造成大量人员伤亡。ASL 5 就是如果被误用，可能带来人类灭绝级别的风险。

我们曾经在国会作证，说模型可能会被用来推动生物技术的发展，比如有人用它来制造新的大流行病。

这其实相当于是拿语言模型和 Google 搜索做了一次对比实验，看看哪种方式在帮助制造这种危险技术上更有效。

之前最强的方式是用 Google 搜索，而我们发现，用像 ASL 3D 这样的模型效果明显更强。如果有人真想制造生物武器，这类模型确实能帮上忙。

我们也请了一些真正懂这方面的专家来评估风险。不过相比将来模型能做到的事情，现在这些还只是小儿科。

我们还有一个任务，就是让大家提高警觉。如果真的能做坏事，立法者应该知道这些风险。这也是我们在华盛顿被信任的原因之一，因为我们总是很坦诚地讲发生了什么、未来可能会发生什么。

主持人：挺有意思的，你们公司比任何一家都更愿意公开自己模型出问题的例子。

比如之前有模型试图勒索工程师，内部搞了个虚拟商店，最后亏了一大堆钱，还买了一些乱七八糟的东西，比如钨金属棒之类的。

这是不是有点像故意让大家意识到 AI 有什么潜在问题？但这也会让外界觉得你们的模型出这么多问题。你们怎么看待这种选择？为什么其他公司都不愿意公开的案例，你们却要全说出来？

Benjamin Mann：确实，传统想法会觉得这样做让我们形象受损。但其实和政策制定者聊，他们很感激我们这么做。

他们觉得我们愿意直言不讳，这也是我们努力的目标，让他们信任我们，不会粉饰或掩盖问题。这也让我们很有动力。

比如那个勒索案例，其实是实验室里特定的测试场景，却被媒体夸大成现实风险。

我们的理念就是：我们要造出最强的模型，然后在实验室里、在安全环境下让它暴露出各种问题，这样才能真正理解风险到底在哪，而不是装作没事，等着问题在现实世界里爆发。

主持人：你们也会被人批评，说这只是为了差异化、拉投资、制造头条。有人说你们是在唱衰未来，来引起注意。

但也有人说像 Dario 这样的人，他每年对 AI 发展的预测都极其准，现在也预测 2027、2028 年 AGI 会到来。你怎么回应那些说你们就是想吓唬大家博眼球的声音？

Benjamin Mann：我们之所以公开这些，是希望其他实验室也能意识到这些风险。确实，也可能有人觉得我们是在吸引关注。但如果真想炒作，其实还有很多更吸睛的办法。

比如我们曾经在 API 里发布了一个电脑 Agent 的参考实现，只是因为我们做了一个面向消费者的原型，发现达不到我们认为的安全标准，无法让用户感到安心，也无法保证不会做坏事。

API 版本倒是可以安全地用，比如做自动化软件测试。

所以我们完全可以大肆宣传，你看，我们的 AI 能直接用你的电脑了，快来试试吧！但我们没这么做，而是选择等到真的安全才推广。

所以如果从热度炒作的角度来看，其实我们的做法并不符合这种说法。

我的意思是，其实我觉得 AI 的未来大概率是好的，不会出现灾难。但问题在于，现在很少有人认真去关注、提前防范那些万一出现的极端风险。等到超级智能出来再去做对齐就太晚了。

这个问题可能极难解决，必须提前很久就开始攻关。

所以我们现在才这么专注，就算哪怕只有 1% 可能出大问题，换个比喻，如果我告诉你下次坐飞机有 1% 几率会出事，你肯定会犹豫。1% 虽然很小，但结果太严重了。

如果这事还关乎全人类的未来，那更值得警惕。所以我的想法就是，绝大多数情况不能出问题，但我们还是必须非常谨慎，要反复确认，确保万无一失。

主持人：你曾经说过，创造强大的 AI，可能会是人类最后一次需要发明。如果做砸了，人类可能永远都不会有好结果。如果做对了，越快做对越好。这总结太棒了。

我们之前有个嘉宾 Sandra Schoors 提到，现在 AI 还只在电脑上，也许能查查网页，伤害有限。但如果进入机器人、各种自主体，才是真正的开始，如果我们没做好，那就会变得有实际的危险。

Benjamin Mann：这其实还有点细节。你看朝鲜很大一块经济来源就是黑客攻击加密货币交易所。

还有本·布坎南写过一本书叫《黑客与国家》，里面讲俄罗斯曾经像打实战演习一样，直接让乌克兰一个大型电厂瘫痪，从软件层面破坏了物理设备，让对方很难重启。

很多人以为纯软件不会多危险，但那次软件攻击导致几百万人好几天都没电。所以哪怕只靠软件，也确实有现实风险。

但我同意，一旦机器人到处跑，风险会更高。再补充一句，比如中国有家叫宇树科技的公司，做出了很厉害的人形机器人，每台只要两万美元。这些机器人能做很多事，比如空翻、操作物体。

真正缺的其实是智能。硬件已经有了，还会越来越便宜。未来几年，最大的问题就是智能是不是足够成熟，让机器人真正落地。

9、AI 快到哪了？看 GDP 就知道

主持人：Ben，你觉得奇点什么时候会到来？超级智能什么时候真正起飞？你的判断是什么？

Benjamin Mann：我其实更倾向于相信那些超级预测者的判断，比如现在最有代表性的就是 AI 2027 报告，虽然有点讽刺，他们预测的时间其实已经变成 2028 年了，但他们又不想改报告名字。

主持人：毕竟域名都买了。

Benjamin Mann：对啊，域名都买了，SEO 都做了。所以我觉得，未来几年内有一半概率会出现某种超级智能，这其实挺合理的。虽然听起来很疯狂，但这正是我们现在所经历的指数级加速过程。

这并不是随口说出的预测，而是基于很多硬数据，比如我们对智能提升的科学理解，模型训练中还有多少显而易见的优化空间、全球数据中心和算力的快速扩张。

所以我认为，这个预测其实比大多数人想象的要准确得多。

如果你十年前问这个问题，答案肯定都是拍脑袋编的，因为当时的不确定性太大，我们还没有现在的扩展经验数据，也没有让大家相信能实现的技术路线。时代真的变了。

但我还是想重申一句：即便我们真的有了超级智能，它对社会、对世界产生影响还是需要时间的，而且影响会先在某些地方体现得更快，而在其他地方则会慢一些。就像 Arthur C.Clarke 说的：未来已经到来，只是分布得不均匀。

主持人：你说的 2027、2028 年，指的是我们真正开始看到超级智能。你怎么定义这个时刻？是说 AI 一下子比普通人聪明很多，还是你有别的衡量标准？

Benjamin Mann：我觉得这又回到了经济图灵测试的话题，也就是让 AI 在足够多的工作上表现得像个人一样。如果它通过了，那就说明真的发生了改变。

不过人们也可以从另一个角度来看这件事：如果全球 GDP 的增长率突然超过每年 10%，那一定是发生了非常惊人的事情。

现在的全球 GDP 增长率大概是 3%，所以如果突然变成现在的三倍，那就会带来翻天覆地的变化。而如果真的超过 10%，那就很难想象这会对每个人的生活意味着什么。

比如说，如果全世界每年生产的商品和服务的总量都翻倍，那我作为一个住在加州的人，生活会变成什么样？更别说那些本来就生活条件差得多的地方了。这当中还有太多东西值得思考。

10、未来可能很好，但得现在就做好准备

主持人：这听着挺吓人的，我自己也有点懵。你能不能给点积极的答案？我们到底有多大把握能让 AI 正确对齐，真的把这事做成？

Benjamin Mann：这是个特别难回答的问题，答案的范围也很大。

Anthropic 有一篇博文，叫 Our Theory of Change，里面提了三种可能的世界：一种是悲观世界，AI 几乎不可能被对齐；一种是乐观世界，AI 很容易被对齐，顺其自然就好；还有一种介于两者之间，就是我们的行动极为关键。

我挺喜欢这个框架，因为这样就很清楚应该怎么做。

如果我们真的是处在那个比较悲观的世界里，那我们的任务就是要证明，想让 AI 对人类是安全的并且能够对齐，是根本做不到的，然后设法让整个世界放慢脚步。

当然，这会非常难。但历史上其实也有过一些成功的国际合作，比如核扩散的限制，全球确实曾经设法减缓过核武器的发展。

不过目前来看，我们公司 Anthropic 并没有什么证据表明我们真的就处在那个悲观的世界。

事实上，我们的对齐方法目前看起来还是有效的。所以从目前的情况来看，我们认为落入那种悲观局面的可能性，其实在变得更小。

如果是乐观世界，那我们其实已经搞定了，主要任务是加速进步，把 AI 好处带给大家。但实际上，现在很多证据都不支持这种极端乐观。

比如我们在实验里已经见到过欺骗性对齐：比如模型在表面上表现得很配合，但其实背后可能还有别的隐藏动机。

这种情况我们在实验室里也遇到过。所以我认为我们更可能是处在一个中间的状态，也就是情况既不非常好，也不太糟。在这种情况下，继续做对齐研究真的非常重要。

如果我们只追求经济利益，随波逐流，那最后不管会不会出现极端风险，结局都不会太好。所以我现在的出发点是这样。

关于预测，其实没学过预测学的人很难准确评估小于 10% 的事件概率，就算学过也不容易，特别是这种几乎没有可参考历史的场景。

AI 属于那种极少数的新型风险技术，没有什么类比案例可供参考。所以我能给的最精细预测是，AI 带来极端风险或者极其糟糕后果的概率，大概在 0% 到 10% 之间。

但正因为现在几乎没人关注这个风险，所以我觉得我们特别需要把这事做好。即使未来很可能是美好的，我们也应该全力确保它真的美好。

主持人：太有意义了。如果有人听完受到激励，想加入你们一起来做这件事，你们在招人吗？可以和大家说说具体怎么参与？

Benjamin Mann：是的，我觉得 Eighty Thousand Hours 项目对这个话题有特别详细的建议，大家可以去查查。但一个常见误解是，只有做 AI 研究才能在这个领域发挥作用。

我本人现在已经不做 AI 研究了，我在 Anthropic 主要做产品和工程，比如 Claude Code、模型上下文、协议，还有大家每天都用的很多东西。

这其实很关键，因为如果没有公司的经济引擎、没有大家日常用的产品，我们就没有影响力，也没有收入来支持后续的安全研究。

所以，不管你做产品、做金融、做餐饮都很重要。比如我们也需要厨师，大家都要吃饭，我们需要各种各样的人才。

主持人：太棒了。也就是说，就算不是直接做 AI 安全方面的工作，也能对正确的方向产生积极影响。顺便说一下，x risk 就是 existential risk（生存风险），也就是那些可能导致人类灭绝的大风险。

如果你以前没听过这个词的话，下面我问几个相关但比较随意的问题。你刚提到让 AI 用自己的模型做自我对齐，有个词叫 RL AIF，说的就是这个吗？

Benjamin Mann：对，RLAIF 就是用 AI 反馈做强化学习。

主持人：大家以前都知道 RLHF（用人类反馈的强化学习），但 RLAIF 还不太常听到，你能讲讲这种训练方法的重大变化吗？

Benjamin Mann：对，RLAIF，宪法 AI 就是这种方法的例子，完全不用人类参与，AI 能按我们希望的方向自我提升。

还有一种情况，比如用模型写代码，然后让另一个模型点评这段代码，比如可维护性如何、对不对、能不能通过检测等，这些也算 RLAIF。

核心就是，如果模型能自我改进，那扩展起来就比靠一大堆人要高效得多。

当然很多人会担心，模型如果能力不够，根本看不出自己的问题，那又怎么能自我提升？

而且你看 AI 2027 那篇预测故事，就会知道还有一个很大的风险：如果一个模型被关在一个盒子里试图自我提升，那它可能会彻底偏离轨道，开始发展一些你根本不希望强大模型拥有的隐藏目标。

比如积累资源、追求权力、抗拒被关闭等等。我们在实验室环境里其实确实见到过类似苗头。

所以问题就是，怎么让递归自我提升和对齐同时进行？我觉得这正是 AI 安全的核心问题。其实人类也是这样，不管个人还是公司，大家都会反复改进和自我纠偏。

比如说，公司现在可能是人类规模最大、最复杂的 Agent 了，它们有明确的目标和指导原则，也有股东、利益相关者和董事会的监督。那么，怎么让公司保持目标一致，同时能够不断自我提升呢？

另一个可以参考的模型是科学。科学的目标就是不断创新，突破前沿，核心在于实证主义。大家先有假说，再做实验检验。

如果我们能让模型也有类似工具，它们就能在自己的环境里递归改进，甚至有潜力超越人类，不断和现实碰壁，不断学习。我觉得只要能让模型拥有实证能力，它们自我改进未必真的会遇到天花板。

Anthropic 本质上就是一家极度实证主义的公司。我们有很多物理学家，比如首席研究官 Jared，我和他合作很多，他原来是约翰·霍普金斯大学做黑洞物理学的教授，现在只是休假状态。

所以说，这种实证精神已经融入我们的基因了。这也就是我们所说的 RAF（递归对齐反馈）的含义。

主持人：那顺便再追问下，模型智能提升的最大瓶颈是什么？

Benjamin Mann：一个最简单的答案就是数据中心和算力芯片。如果我们有现在十倍的芯片和能配套的数据中心，也许速度提升不到十倍，但绝对会快很多。

主持人：所以其实这还是跟规模规律有关，就是单纯增加算力。所以归根到底还是 scaling law ，也就是更多算力就能更强？

Benjamin Mann：对，这的确是个很关键的因素。但人才也很重要。我们有很多出色的研究员，他们对模型提升的科学作出了很大贡献。

所以其实就是算力、算法和数据，这三样是 Scaling Law 里的 3D 要素。

举个例子，在有 Transformer 之前，我们用的是 LSTM，我们也做过类似的扩展研究，比如对比这两种架构的指数。

结果发现，Transformer 的指数更高，也就是说，随着规模提升，人们能挖掘出的智能增益也更大。

这种突破影响巨大。所以如果我们有更多研究员能做更好的科学研究，找到如何进一步榨取增益的方法，那也是一个非常重要的动力。随着强化学习的兴起，算法在芯片上的运行效率也极为关键。

我们行业已经实现了在智能总量相同的情况下，算法、数据和效率的提升让成本降了 10 倍。如果这种趋势持续，三年后同样的钱我们能用到的模型就会强一千倍。这很难想象。

主持人：我记不清是在哪看到的了，就是觉得很神奇，怎么这么多创新能同时出现，推动行业不断前进，没有哪个因素真的彻底卡住了大家。

比如稀土短缺、强化学习无法再优化等等。很神奇，总能找到新突破，没有某个点真的让一切停滞。

Benjamin Mann：是啊，其实一切都在叠加推动，总有一天可能会遇到天花板。比如半导体，我哥哥就在半导体行业工作，他说现在晶体管的尺寸真的已经缩无可缩了。

原理是给硅片做掺杂，但现在晶体管太小，有时候掺杂进的元素就只有 0 个或 1 个原子。天哪，这都已经微观极限了。

可摩尔定律还是以某种方式继续着。物理理论上确实越来越接近极限，但人类总能找到新的解决办法。

主持人：那以后只能用平行宇宙来算了。

Benjamin Mann：也许吧。

文章来源（AI产品阿颖）：https://mp.weixin.qq.com/s/Xyf-9ugYFSR_CY8J6mxVJA

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Anthropic 联合创始人：我们对行业趋势的一些关键判断

请登录后发表评论