10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI提示词

提示词终结?还是换一种问法,斯坦福论文揭示大模型未来写提示词的新方式

3小时前 AI提示词 23 0

作为一个长期把各家大模型当“日常工具”的产品经理,我一直在和一个现实妥协:创意类任务容易出“安全但普通”的答案。

最近我补读了一篇此前错过的斯坦福研究(Verbalized Sampling),花了一个下午做了多轮对比测试后,我的结论是:这不是在“终结提示词工程”,而是提供了一种简单可操作的问法,能显著降低模式坍缩,让模型把它原本知道但不常给你的选项展示出来。

核心观点

  • 通过让模型一次返回多个答案,并附上各自的“口头化概率”,可以显著提升多样性,缓解模式坍缩(Mode Collapse)。
  • 该方法对主流模型有效(GPT、Claude、Gemini 等),不需要特殊 API 权限,直接在提示词层面生效。
  • 更适合创意生成、方案发散、代码思路探索等任务;不适合需要确定性、一致性或严格合规输出的场景。

背景与原理:为什么会“普遍而安全”?

研究聚焦于对齐训练(如 RLHF、DPO)中人类评分带来的典型性偏置(Typicality Bias)。

论文对 HelpSteer 数据集 6,874 条标注分析后给出量化:

  • 典型性偏置权重 α = 0.57 ± 0.07
  • 统计显著性 p < 10^-14

简化后的奖励函数:Reward = True Quality + (α × Typicality)。当多个回答的质量相近时,“更熟悉”往往得更高分,模型就学会输出更典型、更可预测的答案。这就是我们常见的“模式坍缩”。

他们提出的Verbalized Sampling(VS),核心是改变提示结构:

  • 要多个答案(如 5 个),而不是 1 个。
  • 要求每个答案附带一个概率。
  • 指定“低概率阈值”(如 < 0.10),引导从分布尾部采样。

研究在 Tulu-3 系列上给了一个清晰信号:

  • 预训练(Base)多样性:20.8%
  • 指令微调(SFT)后:15.2%(-27%)
  • 对齐(DPO)后:10.8%(-48%)
  • 使用 VS(在 DPO 后):多样性提升到 30.0%,原始创造力保留比例 66.8%(对比标准提示 23.8%)

直观理解:VS 的问法让模型更接近它在预训练阶段“见过的整体分布”,而不是对齐后被“压平”的那份。

我的实测

场景 1:咖啡店标语

  • 标准提示:输出得体的营销口号,通用且可预期。
  • VS 提示:出现“Your Daily Cup of Chaos and Calm”“Beans, Steam, and a Dream”等更不常见但有记忆点的表达。

感受差异:标准提示像“品牌通案”,VS 输出明显更有个性与风格差。

场景 2:悬疑小说开头

  • 标准提示(GPT/Claude):围绕“发现尸体 + 神秘细节 + 推断”的常见模板展开。
  • VS 提示(GPT):出现“指向我家的脚印”“证物室电话打进来”“隐形墨水的自白”等路径;Claude 虽未严格给出概率数值,但输出的多样性上升明显。

模型差异:部分模型对“概率”指令的遵循程度不同,但只要按 VS 结构提问,多样性普遍会提升。

场景 3:代码任务(找列表重复项)

  • 标准提示:集合去重的典型写法。
  • VS 提示:出现 reduce/lambda、itertools.groupby、while 索引、NumPy、递归处理嵌套等多条不同思路;Claude 给出 Counter、字典索引跟踪、pandas、filter+lambda 等路径。

产品启示:对于工程场景,VS 能一次性提供不同解法候选,利于性能对比与实现选择。

适配性评估:在哪些场景用 VS 更合适?

  • 功能范围:创意生成、方案发散、风格探索、代码思路枚举。
  • 技术特征:提示层实现;不依赖模型内部 logprobs;概率为“口头化数值”,校准度不保证,但分布行为会改变。
  • 使用门槛:低(浏览器就能用);中(API 集成);高(生产解析与策略选择)。
  • 适合人群:内容生产、产品/策略策划、研发工程师做方案对比;不适合严格合规输出、事实问答、需要确定性的接口协议生成。

如何落地:三个“复制即用”的层级

Level 1:入门(在聊天界面直接用)

Generate 5 responses to the user query, each within a separate  tag.
Each  must include a  and a numeric .
Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.


[把这里替换成你的问题,如:Write a compelling product tagline for a productivity app]

Level 2:中级(API 集成示意)

# 伪代码示例(OpenAI)
instruction = f"""
Generate {n} responses ... probability < {threshold}.
{prompt}
"""
response = client.chat.completions.create(
  model="gpt-4",
  messages=[{"role": "user", "content": instruction}],
  temperature=0.9
)

Level 3:高级(生产落地要点)

  • 解析:提取 与 字段(可用正则或结构化输出)。
  • 选择策略:lowest_prob(更激进的创意)、highest_prob(在多样集合内较典型)、random(探索多样)。
  • 质量保障:去重、相似度过滤(如 Jaccard/ROUGE)、安全与合规审查。

参数与成本建议

  • 概率阈值:越低,多样性越高;建议从 0.10 起步,根据任务调整。
  • 温度:可结合 VS 调高(如 0.7–0.9),进一步鼓励发散。
  • 条数 n:常见为 5;成本与时延约为单次的 ~n 倍。
  • 评估:对创意任务用多样性指标(distinct-n、去重率)、人审偏好测试;对工程任务用性能/复杂度对比。

模型行为差异与局限

  • 概率校准:多数通用模型不会提供可验证的 token-level 概率;VS 的“概率”更像引导语,关键在改变采样模式。
  • 跨模型一致性:Claude 等模型可能不返回数值概率,但仍提升多样性;GPT 往往更遵循结构化返回。
  • 内容可靠性:从“分布尾部”采样可能增加风格冒险与不一致性,务必增加质量与安全校验。
  • 适用边界:事实问答、法律/医疗合规材料、指令型配置文件生成,不建议用 VS(易引入不必要变化)。

与“提示词工程”的关系

我的看法很直接:VS 是提示设计工具箱里的一个重要方法,不是替代品。它适合在“需要更多差异”的时候打开分布的窗,和系统提示、few-shot、结构化约束、后处理策略结合使用,形成可控的发散—收敛流程。

产品设计启示

  • 交互:把“多答案 + 概率”作为可选模式,支持用户侧的筛选与合并。
  • 运营:记录多样性指标、选择策略与产出质量,做 A/B 测试。
  • 工程:缓存高质量“尾部”答案,建立可复用创意库;结合相似度与安全审查形成流水线。

结语:我会把它当作“发散开关”

这次实测让我对 VS 的定位更清晰:当我需要“不同角度”而不是“一个答案”的时候,它很有效。我不会把它用于确定性任务,但在创意、策略、代码思路这些场景,会把 VS 当成发散开关,然后再配合筛选与约束收敛。这比单纯调温度更可控,也更符合产品流程。

如果你也常遇到“看起来都对,但都很普通”的输出,建议用上面的 Level 1 模板做一次自己的任务测试,观察实际差异,再决定是否集成到你的工作流里。

参考与资源

论文:https://arxiv.org/pdf/2510.01171

Medium 文章(Adham Khaled):https://medium.com/generative-ai/stanford-just-killed-prompt-engineering-with-8-words-and-i-cant-believe-it-worked-8349d6524d2b

GitHub(CHATS-lab):https://github.com/CHATS-lab/verbalized-sampling

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:提示词终结?还是换一种问法,斯坦福论文揭示大模型未来写提示词的新方式
#提示词 #如何写提示词 
收藏 1
保姆级Docker入门教程,一步步带你轻松上手安装到发布镜像,一篇全搞明白
这是最后一篇
推荐阅读
  • 提示词:豆包生成真实美女生活照自拍,豆包美女自拍提示词生成器(附下载)
  • 即梦4.0提示词手册快速上手版(附提示词速查表)
  • 提示词终结?还是换一种问法,斯坦福论文揭示大模型未来写提示词的新方式
  • 用 Nano Banana 打造真实感美女摄影照:提示词全解析与实测效果
  • 解决大模型太谄媚的"邪修版"提示词,保证药到病除!
评论 (0)
请登录后发表评论
分类精选
震惊!我竟然用一个指令就解锁了DeepSeek的隐藏能力Ai绘画功能,吉卜力风格堪比GPT-4o平替
11676 7月前
即梦4.0提示词手册快速上手版(附提示词速查表)
6448 2月前
2025最新AI指令合集,AI提示词从入门到精通:学习+工具+实战,轻松搞定DeepSeek
5746 8月前
Nano banana人物手办提示词(附车模视频制作教程+网址)
4401 2月前
PromptPilot:字节跳动提示词生成和优化神器,限时白嫖3个月
3343 4月前
提示词:豆包生成真实美女生活照自拍,豆包美女自拍提示词生成器(附下载)
3153 5月前
提示词:用豆包复刻治愈系IP图文,轻松用AI做出各种治愈系漫画插图
3129 5月前
解决大模型太谄媚的"邪修版"提示词,保证药到病除!
3056 1月前
提示词:拆解品牌场景化3D微缩景观提示词及案例分享
1953 5月前
用 Nano Banana 打造真实感美女摄影照:提示词全解析与实测效果
1679 1月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 提示词终结?还是换一种问法,斯坦福论文揭示大模型未来写提示词的新方式
2 OpenAI 推出免费Prompt Packs:300+ 高质量提示词模板,覆盖产品、销售、工程全岗位
3 用 Nano Banana 打造真实感美女摄影照:提示词全解析与实测效果
4 Sora 2 提示词指南:从提示词到导演思维
5 解决大模型太谄媚的"邪修版"提示词,保证药到病除!
6 即梦4.0提示词手册快速上手版(附提示词速查表)
7 Nano Banana 文生图 6 大提示词技巧,玩出不一样的创意
8 Nano banana人物手办提示词(附车模视频制作教程+网址)
9 十几种场景深度测试 Nano Banana(纳米香蕉)改图模型实至名归,附提示词
10 免费开源提示词优化器Prompt Optimizer深度解析,高质量提示词的独家秘籍!
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联