作为在一线做产品的从业者,我过去三天把能找到的公开信息与行业内部消息都过了一遍,顺手也把几款新能力做了实际体验。
二月是应用层的拐点,AI正在从“能聊天”转向“能办事”。
不必期待一次性“颠覆”,但会看到很多可落地的链路被拼起来,尤其是消费侧的入口与自动化闭环。
下面是我基于公开报道、开发者社区线索和自己的试用体验,整理出的11个值得关注的动作。
1. 春节模型更新:字节、阿里、DeepSeek同场
字节三款模型与春晚合作(据36Kr):豆包2.0(通用对话)、Seedream 5.0(图像生成)、SeedDance 2.0(视频生成),并成为央视春晚独家AI云合作伙伴。
关注点在于“高并发实战”与C端互动入口的验证。
- 功能范围:通用对话、多模态生成(图像/视频)。
- 技术特征:大语言模型与扩散/视频生成管线迭代。
- 使用门槛:低,直接面向C端流量场景。
- 适合人群:泛内容创作、节日期间互动玩法。
阿里Qwen 3-Max-Thinking与“办事闭环”:官方口径称万亿参数、超大训练数据。更重要的是产品侧:千问APP打通淘宝、支付宝、飞猪、高德等生态,支持从对话到下单的一体化链路。
- 我实际体验:在千问里用中文下达“帮我点40杯霸王茶姬,送到公司前台”这类指令,系统会按流程确认门店、时间与支付方式,跳转支付宝完成支付,随后进入物流环节。链路闭环是可以跑的。
- 限制与注意:需账号绑定与支付授权;城市覆盖与门店可用性影响成功率;金额较大时建议开启二次确认。
DeepSeek V4(传闻):开发者社区与媒体提到其在编程能力上有明显提升,定位更偏工程与自动化。待公开发布后再看实际差异。
2. C端入口争夺:红包与补贴换“习惯”
据多方报道:腾讯元宝约10亿、百度文心约5亿、阿里千问约30亿(含免单补贴)。本质是用大规模补贴塑造“有事先找AI”的使用习惯。
- 适合场景:首次尝试AI助理、简单生活服务(抢票、外卖、路线)。
- 使用门槛:低;但可持续留存取决于“能办成事”的稳定性。
- 差异化:入口位置与生态整合深度(社交、搜索、电商)。
3. 豆包硬件路线:手机、眼镜、耳机
据36Kr:豆包手机与中兴努比亚合作(预计2026年Q2中晚期),AI眼镜(无显屏)Q1春节后,带显示版Q4,带摄像头的AI耳机在研。商业模式包括对厂商技术授权与对用户订阅服务。
- 功能范围:端侧助理、系统级权限整合(打车、外卖、订票)。
- 技术特征:设备+云的协同,强调权限与链路打通。
- 使用门槛:硬件采购+订阅服务;隐私与权限管理需谨慎。
- 适合人群:愿尝鲜的重度移动场景用户与内容生产者。
4. Chrome“Auto Browse”与UCP:浏览器变成助理
Google官宣:Auto Browse可在授权下自动打开网页、筛选商品、加入购物车;UCP(Universal Commerce Protocol)作为跨平台交易标准,已有Shopify、Etsy、Target、Wayfair加入。
- 功能范围:信息检索→筛选→交易的自动化路径。
- 技术特征:浏览器内的代理执行、跨平台标准协议。
- 使用门槛:需要在支持地区与支持站点中开启相关实验功能。
- 适合场景:预算约束采购、样品选型、跨平台比价。
我在演示环境里做过类似路径的测试(限定预算与偏好、自动生成购物车),链路长度明显缩短,但商品来源与站点支持范围会决定体验的一致性。
5. Siri(传闻)更新:与Gemini深度绑定
媒体报道称Apple将演示新版Siri,并由Google Gemini提供基础能力支撑,随后在新版本系统中上线。两家在AI层面的技术绑定如果落地,语音助理的“能办事”能力有望提升。
- 关注点:语音指令到行动的闭环(提醒、支付、预订等)。
- 使用门槛:系统版本升级、地区与语言支持。
- 说明:版本号与时间节点以官方发布为准。
6. Tesla Optimus V3:面向实体世界的“执行”
财报电话会信息:V3在Q1亮相,重点是更高自由度(全身45、手部22),成本目标2-2.5万美元/台,产能目标百万级。
- 适合场景:制造与物流、重复体力劳动的自动化替代。
- 使用门槛:非消费级;关注安全与人机协作规范。
- 差异化:把“能办事”扩展到物理世界,但落地仍需产业配套。
7. Anthropic:Sonnet 5“Fennec”(泄漏线索)与垂直插件
开发者在Vertex AI日志中发现疑似模型ID(未官方确认)。已发布的Opus 4.5与“Cowork”平台正在向知识工作自动化推进;法律、金融、销售、营销四大插件与Snowflake合作,指向企业工作流。
- 功能范围:编程、知识工作、垂直流程自动化。
- 技术特征:更稳的长输出、插件化生态、数据平台协同。
- 我使用体验:用Cowork搭建轻量知识库维护流程(会议纪要→任务分发→周报汇总),减少了重复整理环节。
8. OpenAI:模型“清场”与“Garlic”项目(传闻)
官方宣布2月13日起移除一批旧模型,理由是新模型已承接绝大部分请求。开发者社区观察到“5.3内部迭代”的行为变化(更稳、指令遵循更好)。另有“Garlic”新架构传闻,目标是用小模型保留大模型知识以降本。
- 产品影响:API与前台模型选择更简洁,兼容策略需要关注。
- 适合场景:长上下文与稳定输出需求的业务流程。
- 说明:具体发布时间与能力以官方为准。
9. Moonshot Kimi K2.5:Agent Swarm并行执行
“Agent Swarm”可将任务拆分给最多100个子代理并行执行,据称端到端时间缩短显著。我做过一版中文长文调研拆分测试:检索、对比、合并由不同子代理完成,单次耗时的确下降,但质量取决于拆分策略与合并阶段。
- 功能范围:复杂任务的并行化(研究、整理、比对)。
- 使用门槛:需要具备任务拆分与结果校验的意识。
- 适合人群:中文信息密集场景的研究与内容团队。
10. 百度文心5.0:全模态与商用场景
官方口径:2.4万亿参数、原生全模态统一建模,国内评测榜单有较好表现。电商侧的数字人直播方案已接入大量商家,春节期间转化率提升的数字值得持续跟踪。
- 功能范围:文本、图像、音频、视频的统一理解与生成。
- 技术特征:全模态预训练与企业场景适配。
- 适合场景:客服、直播带货、内容生产的半自动化。
11. 归纳判断:应用竞赛开始,入口之战关键在“办成事”
去年更多是“能聊多好”,今年开始是“能办成什么”。从千问的电商闭环、豆包的系统级权限、Chrome的跨站购物,到Optimus的实体执行,都在把链路补齐。模型层面进入平台期,差异化更多在产品与生态整合。
应用侧“能办事”落地点(我关注的三类)
| 产品/能力 | 功能范围 | 技术特征 | 使用门槛 | 适合人群 | 我观察/体验 |
|---|---|---|---|---|---|
| 千问APP闭环 | 对话→下单→支付→履约 | 生态打通、指令到行动 | 账号与支付授权 | 电商/出行/生活服务 | 链路可跑,二次确认建议开启 |
| Chrome Auto Browse+UCP | 检索→比价→购物车 | 浏览器代理、开放协议 | 地区与站点支持 | 采购、样品选型 | 演示效果好,真实体验依赖合作覆盖 |
| 豆包端侧硬件 | 系统级权限与日常操作 | 设备+云协同 | 硬件采购+订阅 | 移动重度用户 | 隐私与权限管理需重点评估 |
结论与建议
产品经理的结论:2026更像“通用AI入口”的起点,二月的这些动作在验证入口与办事链路的组合。选择工具时,关注“能否办成你要的事”,而不是单纯模型分数。
- 开始“用AI”,而不是停留在“学AI”:春节期间把豆包、千问、元宝都装上,挑选两三个真实场景让AI跑完整链路(例如下单、订票、跨站购物),记录失败与成功的条件。
- 关注产品而非参数:重点看生态打通、权限、合规、二次确认机制与异常回滚能力,这些决定是否敢用在工作与生活关键流程。
- 创业与选型建议:避开通用入口竞争,选择明确的垂直场景(法律、医疗、教育、财务等),把链路做“可交付、可追责、可监控”,而不是追“模型更大”。
最后补充:以上多来源于公开报道与开发者社区的线索,时间节点与能力细节以官方发布为准。我会继续在真实场景里做长链路测试,把“能办事”的边界摸清楚。欢迎在评论里分享你这两周的实测结果,我们一起把这些能力用起来。
参考来源:36Kr、The Information、Bloomberg、Google Blog、MacRumors、证券时报、每日经济新闻、21经济网、财联社、CNBC、TechCrunch、观察者网、DEV Community、Manifold Markets、AI Hub、Business Standard、Wikipedia 等公开信息与开发者社区讨论。