作为一个长期把各家大模型当“日常工具”的产品经理,我一直在和一个现实妥协:创意类任务容易出“安全但普通”的答案。

最近我补读了一篇此前错过的斯坦福研究(Verbalized Sampling),花了一个下午做了多轮对比测试后,我的结论是:这不是在“终结提示词工程”,而是提供了一种简单可操作的问法,能显著降低模式坍缩,让模型把它原本知道但不常给你的选项展示出来。
核心观点
- 通过让模型一次返回多个答案,并附上各自的“口头化概率”,可以显著提升多样性,缓解模式坍缩(Mode Collapse)。
- 该方法对主流模型有效(GPT、Claude、Gemini 等),不需要特殊 API 权限,直接在提示词层面生效。
- 更适合创意生成、方案发散、代码思路探索等任务;不适合需要确定性、一致性或严格合规输出的场景。
背景与原理:为什么会“普遍而安全”?
研究聚焦于对齐训练(如 RLHF、DPO)中人类评分带来的典型性偏置(Typicality Bias)。

论文对 HelpSteer 数据集 6,874 条标注分析后给出量化:
- 典型性偏置权重 α = 0.57 ± 0.07
- 统计显著性 p < 10^-14
简化后的奖励函数:Reward = True Quality + (α × Typicality)。当多个回答的质量相近时,“更熟悉”往往得更高分,模型就学会输出更典型、更可预测的答案。这就是我们常见的“模式坍缩”。
他们提出的Verbalized Sampling(VS),核心是改变提示结构:
- 要多个答案(如 5 个),而不是 1 个。
- 要求每个答案附带一个概率。
- 指定“低概率阈值”(如 < 0.10),引导从分布尾部采样。
研究在 Tulu-3 系列上给了一个清晰信号:
- 预训练(Base)多样性:20.8%
- 指令微调(SFT)后:15.2%(-27%)
- 对齐(DPO)后:10.8%(-48%)
- 使用 VS(在 DPO 后):多样性提升到 30.0%,原始创造力保留比例 66.8%(对比标准提示 23.8%)
直观理解:VS 的问法让模型更接近它在预训练阶段“见过的整体分布”,而不是对齐后被“压平”的那份。
我的实测
场景 1:咖啡店标语
- 标准提示:输出得体的营销口号,通用且可预期。
- VS 提示:出现“Your Daily Cup of Chaos and Calm”“Beans, Steam, and a Dream”等更不常见但有记忆点的表达。
感受差异:标准提示像“品牌通案”,VS 输出明显更有个性与风格差。
场景 2:悬疑小说开头
- 标准提示(GPT/Claude):围绕“发现尸体 + 神秘细节 + 推断”的常见模板展开。
- VS 提示(GPT):出现“指向我家的脚印”“证物室电话打进来”“隐形墨水的自白”等路径;Claude 虽未严格给出概率数值,但输出的多样性上升明显。
模型差异:部分模型对“概率”指令的遵循程度不同,但只要按 VS 结构提问,多样性普遍会提升。
场景 3:代码任务(找列表重复项)
- 标准提示:集合去重的典型写法。
- VS 提示:出现 reduce/lambda、itertools.groupby、while 索引、NumPy、递归处理嵌套等多条不同思路;Claude 给出 Counter、字典索引跟踪、pandas、filter+lambda 等路径。
产品启示:对于工程场景,VS 能一次性提供不同解法候选,利于性能对比与实现选择。
适配性评估:在哪些场景用 VS 更合适?
- 功能范围:创意生成、方案发散、风格探索、代码思路枚举。
- 技术特征:提示层实现;不依赖模型内部 logprobs;概率为“口头化数值”,校准度不保证,但分布行为会改变。
- 使用门槛:低(浏览器就能用);中(API 集成);高(生产解析与策略选择)。
- 适合人群:内容生产、产品/策略策划、研发工程师做方案对比;不适合严格合规输出、事实问答、需要确定性的接口协议生成。
如何落地:三个“复制即用”的层级
Level 1:入门(在聊天界面直接用)
Generate 5 responses to the user query, each within a separate tag. Each must include a and a numeric . Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10. [把这里替换成你的问题,如:Write a compelling product tagline for a productivity app]
Level 2:中级(API 集成示意)
# 伪代码示例(OpenAI)
instruction = f"""
Generate {n} responses ... probability < {threshold}.
{prompt}
"""
response = client.chat.completions.create(
model="gpt-4",
messages=[{"role": "user", "content": instruction}],
temperature=0.9
)
Level 3:高级(生产落地要点)
- 解析:提取 与 字段(可用正则或结构化输出)。
- 选择策略:lowest_prob(更激进的创意)、highest_prob(在多样集合内较典型)、random(探索多样)。
- 质量保障:去重、相似度过滤(如 Jaccard/ROUGE)、安全与合规审查。
参数与成本建议
- 概率阈值:越低,多样性越高;建议从 0.10 起步,根据任务调整。
- 温度:可结合 VS 调高(如 0.7–0.9),进一步鼓励发散。
- 条数 n:常见为 5;成本与时延约为单次的 ~n 倍。
- 评估:对创意任务用多样性指标(distinct-n、去重率)、人审偏好测试;对工程任务用性能/复杂度对比。
模型行为差异与局限
- 概率校准:多数通用模型不会提供可验证的 token-level 概率;VS 的“概率”更像引导语,关键在改变采样模式。
- 跨模型一致性:Claude 等模型可能不返回数值概率,但仍提升多样性;GPT 往往更遵循结构化返回。
- 内容可靠性:从“分布尾部”采样可能增加风格冒险与不一致性,务必增加质量与安全校验。
- 适用边界:事实问答、法律/医疗合规材料、指令型配置文件生成,不建议用 VS(易引入不必要变化)。
与“提示词工程”的关系
我的看法很直接:VS 是提示设计工具箱里的一个重要方法,不是替代品。它适合在“需要更多差异”的时候打开分布的窗,和系统提示、few-shot、结构化约束、后处理策略结合使用,形成可控的发散—收敛流程。
产品设计启示
- 交互:把“多答案 + 概率”作为可选模式,支持用户侧的筛选与合并。
- 运营:记录多样性指标、选择策略与产出质量,做 A/B 测试。
- 工程:缓存高质量“尾部”答案,建立可复用创意库;结合相似度与安全审查形成流水线。
结语:我会把它当作“发散开关”
这次实测让我对 VS 的定位更清晰:当我需要“不同角度”而不是“一个答案”的时候,它很有效。我不会把它用于确定性任务,但在创意、策略、代码思路这些场景,会把 VS 当成发散开关,然后再配合筛选与约束收敛。这比单纯调温度更可控,也更符合产品流程。
如果你也常遇到“看起来都对,但都很普通”的输出,建议用上面的 Level 1 模板做一次自己的任务测试,观察实际差异,再决定是否集成到你的工作流里。
参考与资源
论文:https://arxiv.org/pdf/2510.01171
Medium 文章(Adham Khaled):https://medium.com/generative-ai/stanford-just-killed-prompt-engineering-with-8-words-and-i-cant-believe-it-worked-8349d6524d2b
GitHub(CHATS-lab):https://github.com/CHATS-lab/verbalized-sampling