10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Hugging Face 推出 GOLD:让不同模型家族也能做知识蒸馏

6小时前 AI最新动态 35 0

在最近Thinking Machines的新文章(见文末)里指出一种很有用的模型压缩技术——在线策略蒸馏(On-Policy Distillation),它通过从高性能“教师”模型的概率分布中转移知识来训练一个小的“学生”模型。这使得学生能够模仿教师的任务性能,同时显著减少大小和延迟。它让小模型在特定领域达到大模型的表现,成本却只有传统方法的十分之一。

但这里有一个知识蒸馏一直存在的痛点:老师和学生必须用同一套分词器。这意味着你不能让 Llama 向 Qwen 学习,也不能让 Gemma 向其他模型取经。这就好比一个说中文的老师,只能教懂中文的学生。

Hugging Face 的研究团队刚刚解决了这个问题。他们提出的 GOLD(General On-Policy Logit Distillation)方法,让任意两个模型之间(即使它们来自完全不同的模型家族)都能进行在线知识蒸馏,不管它们用的是什么分词器。

技术核心

出现这一问题的根源在于不对齐,比如:同一句话"Hugging Face is awesome!",在不同分词器下会变成完全不同的 token 序列:

Tokenizer A:[3, 1, 2] Tokenizer B:[2, 3, 1, 0] 这种不匹配造成两个核心问题:序列长度不同,token ID 也不对应。之前的方法,如ULD(Universal Logit Distillation)只能简单截断到最短长度,丢失信息还容易错位。

GOLD 通过三步解决跨分词器蒸馏:

  1. 增量解码:同时解码教师和学生模型的 token,获取各自的概率分布

  2. 文本对齐:将相同可见文本的片段分组,识别需要合并的 token 位置

  3. 概率合并:在每组内合并相关概率,通过对数概率求和保持语义完整性

具体来说:

序列对齐:不再简单截断到最短长度,而是识别需要合并的 token,通过对数概率求和来合并语义相关的片段。这样"Hugging"和" Face"可以合并成一个完整的概念。

词汇对齐:先找出两个分词器中相同的 token(即使 ID 不同),对这些 token 使用直接映射;对无法匹配的部分,才回退到 ULD 的排序方法。最终损失函数结合两部分:L_GOLD = w1 * L_GKD + w2 * L_ULD

这样即使 token 边界不同,也能保证在完整输出上计算损失函数。

实验效果

数学任务跨家族蒸馏:用 Qwen 教师模型指导 LLaMA 学生模型,在数学任务上表现良好,甚至超过了 GRPO 方法。

个性化(领域)蒸馏:先用 SFT 提升模型的代码能力,然后用蒸馏恢复 IFEval 分数。这验证了前面提到的"专业能力与通用能力平衡"问题的解决方案。

同时需要指出的是,分词器相似度确实影响效果,但仍然强于强化学习。Llama-3.2-1B 与 Qwen3-4B 的相似度 0.64,最终成绩 0.42;Gemma-3-1b 相似度只有 0.063,表现相应较差。

使用方法

GOLD 已经集成到 TRL 库中,使用相当简单:

from trl.experimental.gold import GOLDConfig, GOLDTrainer
​
trainer = GOLDTrainer(
    model="meta-llama/Llama-3.2-1B-Instruct",
    teacher_model="Qwen/Qwen2.5-0.5B-Instruct",
    args=GOLDConfig(
        output_dir="gold-model", 
        use_uld_loss=True, 
        teacher_tokenizer_name_or_path="Qwen/Qwen2.5-0.5B-Instruct"
    ),
    train_dataset=train_dataset,
)
trainer.train()

更多:https://huggingface.co/docs/trl/main/en/gold_trainer

想要在自己的场景尝试在线策略知识蒸馏,官方给出了如下是利用Accelerate训练的````(Accelerate是什么?`可以阅读此书:)```配置用例:

  • SFT配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/scripts/sft.py \
  --model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name open-r1/codeforces-cots \
  --dataset_config solutions_decontaminated \
  --bf16 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 32 \
  --learning_rate 1e-5 \
  --num_train_epochs 1 \
  --max_length 16384 \
  --logging_steps 1 \
  --report_to trackio \
  --trackio_project Qwen3-4B-SFT-Codeforces \
  --output_dir data/Qwen3-4B-SFT-Codeforces \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-SFT-Codeforces \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr \
  --use_liger_kernel
  • 蒸馏配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/experimental/gold/gold.py \
  --model_name_or_path <sft-model> \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name allenai/tulu-3-sft-mixture \
  --dataset_train_split train \
  --bf16 \
  --learning_rate 1e-7 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 64 \
  --num_train_epochs 1 \
  --eval_strategy steps \
  --eval_steps 100 \
  --temperature 1.0 \
  --top_p 0.95 \
  --top_k 0 \
  --max_new_tokens 2048 \
  --max_prompt_length 512 \
  --lmbda 0.25 \
  --beta 0.0 \
  --use_uld_loss \
  --use_extended_uld \
  --uld_use_hybrid_loss \
  --uld_crossentropy_weight 0.0 \
  --uld_distillation_weight 1.0 \
  --uld_student_temperature 1.0 \
  --uld_teacher_temperature 1.0 \
  --uld_hybrid_unmatched_weight 1.0 \
  --uld_hybrid_matched_weight 1.0 \
  --teacher_model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --logging_steps 1 \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-GKD-Tulu \
  --report_to trackio \
  --trackio_project Qwen3-4B-GKD-Tulu \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr

小结

这一突破非常有实用价值。以前你只能在同一家族内做知识蒸馏,现在可以跨家族进行。在线策略蒸馏对于需要在资源受限环境下部署高性能模型的场景特别有用,可以用最好的模型作为教师,采各家所长,训练出适合自己场景的模型。

On-Policy Distillation:https://thinkingmachines.ai/blog/on-policy-distillation/

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Hugging Face 推出 GOLD:让不同模型家族也能做知识蒸馏
#GOLD #Hugging Face 
收藏 1
screenshot-to-code:从截图到代码仅需 3 秒
这是最后一篇
推荐阅读
  • Chrome 变身 AI 浏览器:Gemini 加持后,浏览器也有了Agent?
  • Cline v3.1 更新!Cline + DeepSeek最佳自主的 AI 编程助手来了,Cursor平替
  • 刚刚,Cursor更新支持银联支付升级PRO,支付宝支付也快了!
  • Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
  • Claude工具目录深度体验:MCP协议如何让AI助手变身"万能插座"
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
19716 3月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
17959 5月前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14327 8月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
12732 10月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
12528 6月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
10853 6月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
9957 6月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
9759 8月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
8899 10月前
Trae Pro 来了,终于可以告别排队了!这价格真香
6401 5月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Hugging Face 推出 GOLD:让不同模型家族也能做知识蒸馏
2 GitHub Copilot大整合:一个订阅,统一所有AI编程助手
3 京东发布 JoyCode 2.0 智能编码平台,还有智能体JoyCode-Agent
4 MiniMax M2 上线:顶级代码与 Agent 能力,仅 Claude 价格的 8%
5 LiblibAI 重磅发布 Vidu Q2:视频多主体参考,更自然、更可控的生成体验
6 快手发布 AI 编程矩阵:AI编程工具 CodeFlicker、自研的大模型 KAT-Coder
7 教你白嫖一台腾讯云服务器:CodeBuddy × 腾讯云 Lighthouse限时福利,手慢无!
8 Comet:Perplexity 的彗星浏览器,好不好用?
9 白嫖百亿Token!50+顶级大模型一站式调用,claude 4.5、gpt-5、glm-4.6一键适配
10 ChatGPT Atlas:AI浏览器时代的开端,Open AI 浏览器正式发布!
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
程序库 免费影视APP 花式玩客 免费字体下载 产品经理导航 Axure RP 10 免费Axure模板 Axure原型设计 Axure元件库下载 申请友联