随着微信 AI Agent「小微」的内测版上线,其背后的大语言模型也浮出了水面。
不是腾讯的混元,不是深度求索的 DeepSeek,不是智谱的 GLM,而是微信自研的大语言模型 WeLM(WeChat Language Model)。
01 为什么是 WeLM 而非混元?
WeLM 早在 2022 年 10 月就已发布(ChatGPT 爆火同期),但一直比较低调,公开资料较少。目前已经迭代到第四个版本 WeLM-V4。
它和腾讯混元最大的区别在于定位:
- 混元:通用大模型,卷参数、卷通用能力,对外开放
- WeLM:微信生态专用大模型,强调性价比、稳定、快速响应,应用于微信生态内,不对外开放
02 一个低成本、高效率的"小模型"
WeLM 采用高度稀疏的 MoE(Mixture of Experts,混合专家)架构,而非超大稠密模型。目的是在有限资源下把模型做得足够高效。
它总参数约 80B 或 130B,在如今动辄几百 B、几 T 的模型中,属于"小模型"。但对于微信日活超 10 亿、月活超 14 亿的调用规模来说,成本控制至关重要。
WeLM 技术团队引入了 GQA、partial RoPE、KV-Mirror、Multi-Token Prediction 等技术,核心目标都是:降低开销、降低推理成本、提高吞吐能力。
03 快速响应:Hidden Decoding
在微信中使用 AI,和其他产品不同。用户可以允许 Codex 等工具在处理任务时有思考过程,但微信 Agent 需要即时反馈。
WeLM 采用了一种叫 Hidden Decoding 的方式——通用模型通常会把推理过程展示出来,但微信 Agent 会把推理过程隐藏起来,既保证质量又不让用户等待。
04 长上下文能力
微信中使用 AI 天然是长上下文记忆场景:群聊消息总结、朋友圈动态、拟定回复话术、公众号/视频号内容、个人收藏/喜欢/点赞等。
WeLM 就生长在这个上下文环境里,这也是它能准确识别用户意图的重要因素。技术博客中提到,context extension 中把上下文扩到 128K,长上下文任务表现优秀。
05 技术进展
2026 年,WeLM 官方发布了 3 篇技术博客:
- 以适度资源构建高效稀疏 MoE 模型
- 初探 WeLM-258B MOE 模型后训练
- Hidden Decoding: 在预训练中扩展序列长度
06 为什么是 DeepSeek 兜底?
微信小微的兜底模型是 DeepSeek,而不是混元——有意思的是,混元兜底也是找的 DeepSeek。DeepSeek 融资 500 亿,腾讯作为最大外部投资者又投了 100 亿。
总结
WeLM 的路线不是和别的大模型卷,而是做自己生态中最低成本、低延迟、稳定可控、联系上下文准确理解用户意图的专属大模型。微信小微一开放,WeLM 或将成为国内调用量最大的大语言模型。
WeLM 技术博客:https://welm.weixin.qq.com(以官方发布为准)