OpenAI 正式宣布 Codex 的 Computer Use 功能登陆 Windows 平台。这个功能让 AI 像人一样操作桌面应用——读取屏幕内容、点击鼠标、输入文字。4 月中旬首次上线时仅支持 macOS,如今 Windows 用户也可以使用了。
同步更新的还有手机远程控制能力。5 月中旬 OpenAI 将 Codex 接入 ChatGPT 手机 App,用户可以在手机上启动、监控、审批电脑上运行的 Codex 任务,当时仅支持连接 Mac 主机。本次更新后 Windows 也成为可连接的主机,出门在外用手机调度家里或公司 Windows电脑跑任务的流程正式跑通。

为什么手机远程调度是真正的突破
大量 Windows 用户表示等待已久。但更值得关注的是,手机端的远程调度才是体验上的真正突破:
- 在桌面启动任务,出门后用手机监督、调整进度
- 把人和 AI 的交互从"聊天对话"变成了"管理远程工作人员"
- 这才是 Agent 产品交互该走的方向
有做远程开发的用户表示,这套更新直接给工作流做了一次大升级。
苏米注:这个转变的意义在于,AI 不再是一个需要你坐在屏幕前对话的工具,而是一个可以远程派遣、随时检查进度的"数字员工"。
首批用户的实际问题
功能发布后,首批用上的用户也遇到了不少问题:
地区限制
欧盟、英国、瑞士的用户暂时无法使用该功能。有欧区用户晒出界面截图,Codex 的 Chrome 控制项直接显示"由您的组织禁用或在本地区不可用"。

安装报错
有用户遇到安装报错,错误提示显示找不到 Electron 应用的对应路径。也有 Windows 用户担心 Codex 的沙箱会损坏系统的 ASL,暂时不敢安装。
额度消耗
已经用上的用户反馈功能确实好用,但比较费额度。大规模 Computer Use 任务的 token 消耗仍然是一个需要考虑的成本因素。
MCP:AI Agent 落地的核心基础设施
开发者提到,搭配 MCP(模型上下文协议),Codex 可以连接到 Windows 上的任何工具。这个很少被普通用户注意到的协议,正在成为 AI Agent 落地的核心底层基础设施。
到 2026 年中,生成式 AI 第一波的多数假设已经基本不成立:AI 发展的结构性瓶颈不再是模型智能程度,也不是上下文窗口大小,而是执行的可靠性。整个行业正在从被动的聊天机器人,转向能操作软件、处理数据库、对接企业遗留系统的自主多 Agent 系统。
MCP 就是解决互通性问题的开放标准:
- 2024 年底由 Anthropic 首次提出
- 2025 年底移交到 Linux 基金会旗下的 Agentic AI 基金会治理
- 如果大模型是 Agent 时代的 CPU,MCP 就是这个时代的 USB-C 接口
截至 2026 年 3 月,MCP 的 Python 和 TypeScript SDK 月下载量已经突破 9700 万,全球有超过 1 万个活跃的 MCP 服务器运行在生产环境,对接了 Claude、ChatGPT、Cursor、VS Code 等超过 500 个 AI 客户端。63% 的早期用户用 MCP 服务器对接企业内部的数据源、文档和知识库。
围绕 MCP 落地的基础设施创业公司
MCP 落地仍有明显痛点:50% 的开发者认为安全和权限控制是最大的开发难题,38% 的开发者表示安全顾虑直接阻碍了 MCP 在企业内部的推广。更值得注意的是,24% 的活跃 MCP 服务器完全没有配置任何身份验证机制。
围绕这些痛点,一批做底层基础设施的创业公司已经跑出来:
mintMCP:企业级统一管控网关
企业用 Agent 时往往需要同时对接 Google Drive、Salesforce、QuickBooks、内部数据库等多个工具。mintMCP 把这些分散的集成整合到一个统一的管控平面,提供身份验证、限流、治理能力,解决了 24% MCP 服务器"裸奔"的安全问题。
Bifrost:Go 语言高性能网关
多 Agent 工作流里,一次指令会触发多次大模型调用和工具执行。用 Python 开发的网关每一跳会带来 100 毫秒以上的延迟。Bifrost 完全用 Go 开发,每跳路由开销只有 11 微秒,能稳定扛住 5000 QPS 的持续负载,还带语义缓存,能识别重复的工具查询意图,直接从内存返回结果。

Context7:跨 Agent 上下文缓存
MCP 默认是无状态的,多个 Agent 协作处理长周期任务时,每次都要重新加载历史上下文,既浪费钱又容易出错。Context7 提供跨大模型的无状态和有状态上下文缓存,Agent 修改数据后会实时同步给所有其他活跃的 Agent,大幅降低 API 成本。

Obot:开源本地部署平台
国防、医疗、金融这类强监管行业,不能把内部数据、工具接口发到第三方 SaaS 服务商那里。Obot 提供完全开源、K8s 原生的方案,把 MCP 网关、工具目录、Agent 编排框架都打包好,满足企业的数据主权需求。

Lasso Security:Agent 运行时安全防护
给 Agent 开放执行命令、改数据库、调 API 的权限,本身就有很大的安全风险。Lasso 做的是专门针对 MCP 的 inline 检测代理,实时分析 MCP 客户端和服务器之间的 JSON-RPC 数据流,检测间接提示注入,自动脱敏 PII,给 MCP 服务器做动态信誉评分。如果 Agent 试图做超出权限的高风险操作,会直接冻结执行流程,触发企业审批。

未来几年 AI Agent 行业的三个明确变化
第一,企业软件不用再优先做给人用的复杂图形界面,默认会自带 MCP 接口,直接开放给 AI Agent 调用。软件 API 的主要消费群体也会从人类开发者变成自主系统。
第二,单用途的孤立 Agent 会被淘汰,企业工作流会由高度集成的多 Agent 网络运行。核心技术难点从模型优化变成多 Agent 同步和上下文联邦,状态管理工具会变成核心基础设施。
第三,企业的安全团队和 CIO 会强制要求所有 AI 应用必须配管控平台和安全网关,这类产品会成为企业采购 AI 服务的必选项。
苏米注:现在公众的注意力大多放在消费端的功能更新、大模型跑分上。但 AI 行业的发展和早年的云计算热潮非常像——2006 年大家都盯着第一批跑在云上的 Web 应用,最后真正拿到最大、最长期收益的,不是做应用的公司,是 AWS、Datadog、Snowflake 这些做底层基础设施的玩家。现在 Agent 行业的隐形巨头,大概率也不会是做更漂亮的聊天界面、调更好的提示词的公司,而是做这些没人注意的底层协议、网关、缓存、安全防护的基础设施玩家。