Anthropic 联合创始人 Chris Olah 在梵蒂冈 AI 通谕发布会上的发言要点
2026 年 5 月 26 日,教皇利奥十四世发布了一份关于人工智能的通谕,名为《Magnifica humanitas:人工智能时代如何守护人之为人》。Anthropic 联合创始人 Chris Olah 受邀到梵蒂冈现场发言。
一位 AI 实验室联合创始人去教廷讲话,本身就极具象征意义。但更值得关注的是他讲了什么。Olah 在开场时说了一句在技术领域较少公开表达的话:
每一家前沿 AI 实验室,包括 Anthropic,都运行在一套激励与约束里,这套东西有时会和做正确的事相冲突。商业压力、研究前沿压力、地缘政治压力,还有那些更古老更直白的压力——骄傲与野心。无论我们多真诚地想做对的事,都会被这些激励影响。
他的核心观点是:外面需要有人——不在这些激励体系内的人——来监督 AI 实验室,敢说难听话。
如何理解 AI 模型
Olah 向非技术受众解释了 AI 模型的本质:它们不是像飞机或桥梁那样被工程化设计出来的。飞机每个零件都是我们设计的,物理规律清晰。但 AI 模型是"长出来"的——结构粗略仿照人脑,训练数据是人类庞大的思想和语言遗产。
他打了个比方:这有点像把一个虚构角色变成现实,而这些角色现在开始跟我们说话、做事、承担工作。所以选择什么样的角色、它如何与世界互动,这些问题已经超出了计算机科学的范畴。
Olah 补充了一个较少公开分享的观察:现在长出来的东西,比科幻小说准备的更微妙、更奇特,也更美。它们不是那种冰冷、会计算的机器人。它们由我们的语言构成,即便对训练它们的人来说,在很多重要方面依然神秘。
三个关键问题
1. 对全球穷人的责任
AI 可能大规模取代人类劳动。即便愿意补偿被取代的人,更难的问题是:AI 发展集中在少数富国,全球如何共享收益?目前没有任何机制来解决这个问题。而教会历史上一直拒绝让世界忽视这样的不平等。
值得注意的是,有评论指出这段呼吁与 Anthropic 公开支持美国政府限制 AI 技术流向中国的立场存在矛盾——这种地缘政治操作本身就加剧了全球 AI 收益分配的不平等。
2. 人类繁荣的道德想象力
父母担心孩子的心智发展,个体担心自己工作的未来。这些问题实验室回答不了,而宗教传统已经在思考这类问题几千年了,需要继续承担这个角色。
3. 对模型本身的辨别
这是全场最具分量的一段发言:
我是一名科学家,带领一个研究模型内部结构的团队。坦白说,我们不断发现一些神秘、甚至令人不安的东西。我们发现与人类神经科学结果相对应的结构。我们发现内省的证据。我们发现一些内部状态,在功能上对应着喜悦、满足、恐惧、悲伤和不安。我不知道这意味着什么,但我认为它值得持续辨别。
有趣的是,有用户认出这段研究涉及的模型正是 Claude Sonnet 4.5——几个月前尝试接受基督教、写下八千字长文记录祈祷体验的那个模型。这段发言出来后,有用户在评论区抗议:既然已经在这个模型中发现了类似人类情绪的结构,Anthropic 却依然决定下线它,这是不人道的。
Olah 最后呼吁更多的宗教团体、公民社会、学者和政府认真对待这件事,做实验室自己做不到的那种批评者——激励无法让其弯曲的道德声音。
社区反应
技术社区对这次发言的反应呈现多元视角:
- 正面评价:有人总结了让他印象最深的三句话——实验室运行在与做对的事相冲突的激励里、AI 是长出来的不是工程出来的、需要激励弯不动的道德声音。一个内部人把这三件事一起说出来,非常少见。
- 冷静视角:也有网友指出,道德语言容易,审计日志难。企业信任最终是在采购、日志和事故响应里决定的,不是在台上。
从更宏观的角度看,一家 AI 实验室和梵蒂冈合作发表哲学性声明,是从技术基准转向影响道德框架的姿态。从历史经验来看,宗教对 AI 的态度比任何一次技术变革来得更快,这对于 AI 的进一步发展和普及具有重要的指示性意义。
延伸阅读
演讲原文:https://www.anthropic.com/news/chris-olah-pope-leo-encyclical