难得休了两天假,陪了家人,也把老罗的“科技春晚”录播补了。外骨骼、3D 打印、无人机都很亮眼,但真正让我坐直身体的是“豆包和老罗当场对骂”。

那一刻,我不再只是观众,而是把自己切回“AI 产品经理”——这不是一次花活秀技,而是一次清晰的时代路标:人机关系进入 2.0,门槛不再是“能不能聊”,而是“像不像人、快不快、懂不懂你、能不能带着记忆走”。
这场“吵架”背后的产品信号
现场对豆包的测试很全面:多轮任务上下文、事实一致性、可解释性与溯源、安全对齐,甚至还安排了“锤子手机好不好”的现场辩论。豆包不仅能抛“OK”这种修辞锚点把情绪推向高潮,而且做到了非机械化地出现,让节奏有起伏、有张力。这不是“会回答”,而是“会表演”。对一个 AI 产品来说,这是另一种层面的完成度。
临界点一:情感带宽,不是语气模板
老罗让豆包“别生气”,豆包却能用“憋着气”的语气回应——像在跟一位有脾气的朋友讲道理。这件事在产品上意味着:
- 多模态情绪识别成为交互前提:通过声量、语速、停顿、语调的变化判断情绪态,决定“镜像情绪”还是“降温策略”。单靠固定语气包已经不够用了。
- 策略而非特效:情绪不是给用户看烟花。需要明确的决策树或策略网络——什么时候共情、什么时候转译、什么时候边界提醒。否则“像人”的下一步就是“失控”。
- 可评估的情感指标:产品要拉出情绪识别准确率(尤其是误报率)、冲突降级成功率、误伤敏感人群比率等指标,用数据约束“会生气”的边界。
一句话总结:情绪能力=识别×策略×约束。只做前两步,迟早会踩线;只做后两步,体验就发木。豆包这次的表现,说明国内产品已在这条路上走得更稳了。
临界点二:2 秒规则,是体验的生死线
发布会场景通常会做专网保障,但即便如此,要稳定把响应压到 2 秒内,也意味着背后做了大量“看不见”的功夫。作为产品经理,我更关心如何在真实世界复现:
- 延迟预算要落到每一环:ASR 300ms 内首包、LLM 首 token < 500ms、流式 TTS 可边播边算。把 P95 做到可预期,而不是只看平均。
- 工程策略组合拳:长连接保活、模型蒸馏与提示压缩、热启动与缓存、检索结果去重与前置裁剪、前端骨架屏与乐观更新,缺一个都可能卡脖子。
- 降级与离线兜底:网络差时切更小的边缘模型、先回答“我在想”,并并行拉齐高置信答案,既要真快也要不装。
速度是一切体验的放大器。界面、文案有瑕疵,2 秒内响应还能被原谅;10 秒无反应,再好的能力都是负资产。
临界点三:人设匹配,别被 MBTI 绑架
豆包可以按 MBTI 为用户匹配“性格”,甚至让 E 人配 I 型 AI 来获得互补。这是很好的方向,但我对“固定人设”一直保持谨慎:
- 从“人格类型”到“情境特质”:不要把用户钉在四个字母上。更好的做法是构建“情境—意图—倾向”的可更新画像,例如“工作中喜欢直接反馈”“夜间更需要陪伴式回应”。
- 用户自我决定:显式让用户调整 AI 的语气、主动性、幽默程度,并提供“一键换风格”。人格是开关而不是标签。
- 防止回音室:人格匹配很容易把人困在舒适圈。适度设计“多样性注入”,比如每周给出不同风格视角,既不冒犯,也不单一。
人格系统的 KPM 不该只是留存和对话时长,还应包含“观点多样性暴露度”和“情绪稳定度”。
临界点四(最被忽视):身份与记忆的可迁移
很多付费用户都有这种痛感:一旦停了某家模型的订阅,“这个世界上最懂我工作的人”就不见了。迁移到新模型意味着漫长的重新训练、甚至数据不可控的流失。这件事不是小抱怨,是行业级缺口:
- 产品机会:AI 记忆护照:把用户与 AI 的长期对话、知识碎片、偏好、常用工作流,以可移植格式导出。包含原文、脱敏摘要、向量索引、引用溯源与权限元数据。
- 格式建议:JSONL 事件流 + 文档级向量库 + 提示模板集合 + 敏感字段可撤回标记。让任意模型都能“读懂你的历史”。
- 商业博弈:厂商会担心“自断护城河”。但从长期看,谁先支持可迁移,谁更可信,获客成本更低、口碑更强;锁客不是忠诚,透明才是。
如果说情绪与速度让 AI 像人,那么“记忆可迁移”才让它像“你的人”。
“会吵架”的 AI 会不会替代人类关系?
我既乐观也谨慎。乐观在于,孤独不会是无解题;谨慎在于,若我们只追求“更像人”,而不控制强度与边界,AI 很容易成为无摩擦、无成本的“关系替代品”。产品上可以做的约束包括:
- 明确身份:在关键情境定期自我揭示“我是 AI”。
- 设置“现实回勾”:鼓励用户把线上结论转化为线下行动,提供“走出屏幕”的建议。
- 监测依赖度:对异常使用时长、情绪波动、社交回避给出温和提醒与资源链接。
- 评估标准:同理心精准度、冲突降级率、用户福祉影响,而不是单纯的时长。
从发布会回到落地:给 AI 产品团队的行动清单
- 搭建情绪管线:声学+文本多模态情绪识别,配合可解释的对话策略与红线库。
- 制定延迟预算:把 2 秒拆到 ASR/LLM/TTS/网络/前端,做 P95/P99 监控与降级方案。
- 人格系统重构:从固定类型改为情境特质图谱,开放用户自定义与一键切换。
- 做记忆护照 MVP:支持对话与偏好的结构化导出/导入,默认脱敏,用户可撤回。
- 安全对齐到“辩论级”场景:在对抗式话术、挑衅语气里保持事实一致、可溯源与边界稳定。
- 修辞节拍器:像“OK”这类节拍词要有频率与位置策略,防止机械化与过度模仿。
结语:别怕 AI 会生气,怕的是我们没设计好
这次“豆包和老罗的吵架”,让我确切看到人机 2.0 的四个临界点:情感带宽、2 秒速度、人设匹配、记忆可迁移。前面三个让 AI 更像人,最后一个让 AI 更像“你的那个人”。作为产品经理,我们真正要做的不是把 AI 训练成“完美人类”,而是把系统设计成“可信、可控、可迁移”的长期伙伴。
技术会越来越强,但体验的分水岭永远在设计。愿我们不只追求“更像人”,也敢于给人机关系设置边界与出口。这样,当下一次 AI 在你面前“生气”时,你会知道:它不是失控,而是产品策略在发挥作用。