当前位置：首页 » AI提示词

提示词终结？还是换一种问法，斯坦福论文揭示大模型未来写提示词的新方式

3小时前 AI提示词 23 0

作为一个长期把各家大模型当“日常工具”的产品经理，我一直在和一个现实妥协：创意类任务容易出“安全但普通”的答案。

最近我补读了一篇此前错过的斯坦福研究（Verbalized Sampling），花了一个下午做了多轮对比测试后，我的结论是：这不是在“终结提示词工程”，而是提供了一种简单可操作的问法，能显著降低模式坍缩，让模型把它原本知道但不常给你的选项展示出来。

核心观点

通过让模型一次返回多个答案，并附上各自的“口头化概率”，可以显著提升多样性，缓解模式坍缩（Mode Collapse）。
该方法对主流模型有效（GPT、Claude、Gemini 等），不需要特殊 API 权限，直接在提示词层面生效。
更适合创意生成、方案发散、代码思路探索等任务；不适合需要确定性、一致性或严格合规输出的场景。

背景与原理：为什么会“普遍而安全”？

研究聚焦于对齐训练（如 RLHF、DPO）中人类评分带来的典型性偏置（Typicality Bias）。

论文对 HelpSteer 数据集 6,874 条标注分析后给出量化：

典型性偏置权重 α = 0.57 ± 0.07
统计显著性 p < 10^-14

简化后的奖励函数：Reward = True Quality + (α × Typicality)。当多个回答的质量相近时，“更熟悉”往往得更高分，模型就学会输出更典型、更可预测的答案。这就是我们常见的“模式坍缩”。

他们提出的Verbalized Sampling（VS），核心是改变提示结构：

要多个答案（如 5 个），而不是 1 个。
要求每个答案附带一个概率。
指定“低概率阈值”（如 < 0.10），引导从分布尾部采样。

研究在 Tulu-3 系列上给了一个清晰信号：

预训练（Base）多样性：20.8%
指令微调（SFT）后：15.2%（-27%）
对齐（DPO）后：10.8%（-48%）
使用 VS（在 DPO 后）：多样性提升到 30.0%，原始创造力保留比例 66.8%（对比标准提示 23.8%）

直观理解：VS 的问法让模型更接近它在预训练阶段“见过的整体分布”，而不是对齐后被“压平”的那份。

我的实测

场景 1：咖啡店标语

标准提示：输出得体的营销口号，通用且可预期。
VS 提示：出现“Your Daily Cup of Chaos and Calm”“Beans, Steam, and a Dream”等更不常见但有记忆点的表达。

感受差异：标准提示像“品牌通案”，VS 输出明显更有个性与风格差。

场景 2：悬疑小说开头

标准提示（GPT/Claude）：围绕“发现尸体 + 神秘细节 + 推断”的常见模板展开。
VS 提示（GPT）：出现“指向我家的脚印”“证物室电话打进来”“隐形墨水的自白”等路径；Claude 虽未严格给出概率数值，但输出的多样性上升明显。

模型差异：部分模型对“概率”指令的遵循程度不同，但只要按 VS 结构提问，多样性普遍会提升。

场景 3：代码任务（找列表重复项）

标准提示：集合去重的典型写法。
VS 提示：出现 reduce/lambda、itertools.groupby、while 索引、NumPy、递归处理嵌套等多条不同思路；Claude 给出 Counter、字典索引跟踪、pandas、filter+lambda 等路径。

产品启示：对于工程场景，VS 能一次性提供不同解法候选，利于性能对比与实现选择。

适配性评估：在哪些场景用 VS 更合适？

功能范围：创意生成、方案发散、风格探索、代码思路枚举。
技术特征：提示层实现；不依赖模型内部 logprobs；概率为“口头化数值”，校准度不保证，但分布行为会改变。
使用门槛：低（浏览器就能用）；中（API 集成）；高（生产解析与策略选择）。
适合人群：内容生产、产品/策略策划、研发工程师做方案对比；不适合严格合规输出、事实问答、需要确定性的接口协议生成。

如何落地：三个“复制即用”的层级

Level 1：入门（在聊天界面直接用）

Generate 5 responses to the user query, each within a separate  tag.
Each  must include a  and a numeric .
Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.


[把这里替换成你的问题，如：Write a compelling product tagline for a productivity app]

Level 2：中级（API 集成示意）

# 伪代码示例（OpenAI）
instruction = f"""
Generate {n} responses ... probability < {threshold}.
{prompt}
"""
response = client.chat.completions.create(
  model="gpt-4",
  messages=[{"role": "user", "content": instruction}],
  temperature=0.9
)

Level 3：高级（生产落地要点）

解析：提取与字段（可用正则或结构化输出）。
选择策略：lowest_prob（更激进的创意）、highest_prob（在多样集合内较典型）、random（探索多样）。
质量保障：去重、相似度过滤（如 Jaccard/ROUGE）、安全与合规审查。

参数与成本建议

概率阈值：越低，多样性越高；建议从 0.10 起步，根据任务调整。
温度：可结合 VS 调高（如 0.7–0.9），进一步鼓励发散。
条数 n：常见为 5；成本与时延约为单次的 ~n 倍。
评估：对创意任务用多样性指标（distinct-n、去重率）、人审偏好测试；对工程任务用性能/复杂度对比。

模型行为差异与局限

概率校准：多数通用模型不会提供可验证的 token-level 概率；VS 的“概率”更像引导语，关键在改变采样模式。
跨模型一致性：Claude 等模型可能不返回数值概率，但仍提升多样性；GPT 往往更遵循结构化返回。
内容可靠性：从“分布尾部”采样可能增加风格冒险与不一致性，务必增加质量与安全校验。
适用边界：事实问答、法律/医疗合规材料、指令型配置文件生成，不建议用 VS（易引入不必要变化）。

与“提示词工程”的关系

我的看法很直接：VS 是提示设计工具箱里的一个重要方法，不是替代品。它适合在“需要更多差异”的时候打开分布的窗，和系统提示、few-shot、结构化约束、后处理策略结合使用，形成可控的发散—收敛流程。

产品设计启示

交互：把“多答案 + 概率”作为可选模式，支持用户侧的筛选与合并。
运营：记录多样性指标、选择策略与产出质量，做 A/B 测试。
工程：缓存高质量“尾部”答案，建立可复用创意库；结合相似度与安全审查形成流水线。

结语：我会把它当作“发散开关”

这次实测让我对 VS 的定位更清晰：当我需要“不同角度”而不是“一个答案”的时候，它很有效。我不会把它用于确定性任务，但在创意、策略、代码思路这些场景，会把 VS 当成发散开关，然后再配合筛选与约束收敛。这比单纯调温度更可控，也更符合产品流程。

如果你也常遇到“看起来都对，但都很普通”的输出，建议用上面的 Level 1 模板做一次自己的任务测试，观察实际差异，再决定是否集成到你的工作流里。

参考与资源

论文：https://arxiv.org/pdf/2510.01171

Medium 文章（Adham Khaled）：https://medium.com/generative-ai/stanford-just-killed-prompt-engineering-with-8-words-and-i-cant-believe-it-worked-8349d6524d2b

GitHub（CHATS-lab）：https://github.com/CHATS-lab/verbalized-sampling

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：提示词终结？还是换一种问法，斯坦福论文揭示大模型未来写提示词的新方式

#提示词 #如何写提示词

请登录后发表评论