#GOLD

Hugging Face 推出 GOLD:让不同模型家族也能做知识蒸馏
在最近Thinking Machines的新文章(见文末)里指出一种很有用的模型压缩技术——在线策略蒸馏(On-Policy Distillation),它通过从高性能“教师”模型的概率分布中…