最近用Openclaw做自动化任务时,遇到一个老大难:让 AI 抓网页内容,为什么总这么折腾?
用 curl?多数页面都靠 JS 渲染——返回一层空壳 HTML,信息寥寥。
用传统爬虫?一圈环境配置下来,时间全搭进去了。
更别说当下主流网站大多是 React/Vue 构建的 SPA,静态抓取基本没戏。
直到我把 OpenClaw 和 Playwright 绑在一起,才真正跑通“让 AI 读懂网页”的闭环。
OpenClaw 是什么?为什么它能搞定内容提取
OpenClaw 是一个开源的 AI Agent 框架,目标很直接:让 LLM 真正“操作”浏览器。
底层用 Playwright 驱动真实浏览器。
聪明点在这里:不走“看截图”的高 token 路线,而是利用 Accessibility Snapshot,把页面结构转译成 LLM 可理解的语义骨架。
换句话说,给 AI 配了副能直视 DOM 结构的“眼镜”,准确、轻量、对 token 友好。
两种控制模式,按需选择
Chrome 扩展模式:适合已登录的网站,复用浏览器登录态做后续操作。
Headless 模式:适合纯自动化,无界面后台执行。做内容提取,一般用它就够。
主流四种方案,定位清晰各有所长
方案一:openclaw-web-scraper
GitHub 项目:LiranUdi/openclaw-web-scraper。最大特点:零配置、开箱即用。
-
- 基于 Playwright + Chromium,不需要任何 API Key。
- 浏览器会话长驻,支持多步操作(打开→点击展开→提取内容)。
- 输出直接是 Markdown,上手即用。
方案二:Fetcher MCP
项目:jae-jae/fetcher-mcp。我的常用首选,实用和易用平衡最佳。
-
- 内置 Readability(Firefox 阅读模式同源),自动抽取正文,过滤广告/导航/侧栏。
- 支持并发批量抓取:
fetch_urls可一次投十来个链接,高效稳定。 - 输出支持 HTML 和 Markdown。
方案三:Microsoft Playwright MCP
微软官方出品,工具链齐全(25+ 工具)。
-
- 覆盖导航、点击、表单、截图、PDF 等复杂交互。
- 对纯内容提取偏重:工具太多会让 AI出现“选择困难症”。Bug0 的评测称之为 Tool Proliferation Problem(工具泛滥问题)。
- 更适合登录、填表、多步骤流程等自动化场景。
方案四:Playwright Scraper MCP
项目:dennisgl/mcp-playwright-scraper。哲学与微软方案相反。
-
- 只提供一个工具:
scrape_to_markdown。 - URL 进,Markdown 出,简单粗暴但真好用。
- 无需 AI 做任何决策,直接调用即可。
- 只提供一个工具:
怎么选?一张表述清楚
- 只提取正文、追求简单:选 Playwright Scraper MCP。
- 提取正文且需要批量抓:选 Fetcher MCP。
- 涉及登录、点击、填表等复杂交互:选 Microsoft Playwright MCP。
- 希望在 OpenClaw 生态里跑:选 openclaw-web-scraper。
实操演示:10 分钟跑通内容提取(以 Fetcher MCP 为例)
第一步:安装
npm install -g @anthropic/fetcher-mcp
第二步:配置 MCP Server
{
"mcpServers": {
"fetcher": {
"command": "fetcher-mcp",
"args": []
}
}
}
第三步:调用
在你的 AI 工具里直接让它提取:
帮我提取这个页面的主要内容:https://www.example.com/article
AI 会自动调用 Fetcher MCP,后台启动 Headless 浏览器;待页面 JS 渲染完成后,Readability 抽取正文,返回干净的 Markdown。
如果偏好 openclaw-web-scraper,流程也相近:安装后以 --headless 模式启动,通过 Unix Socket 维持会话,支持多步交互。
几个容易踩的坑(提前规避事半功倍)
- Shadow DOM 是 2026 年最头疼的点。很多组件库(Shoelace、Lit 以及企业内建组件)把元素藏在 Shadow Root 里,Accessibility Snapshot 看不到。遇到这类页面,可能需要降级为直接执行 JS 提取。
- 登录态内容请用 Chrome 扩展模式。Headless 每次是全新会话,遇到需要登录的网站会被挡住;OpenClaw 的扩展模式能复用现有登录状态。
- 工具越多不一定越好。纯内容提取别上 Microsoft Playwright MCP 的全套 25 工具;工具少更利于 AI 快速决策、降低 token 消耗。Bug0 的结论很明确:一个灵活的工具,胜过一堆“精确但繁杂”的工具。
- 不想本地装 Playwright?试试 Apify 的云端方案,浏览器跑在他们的服务器上,你本地零依赖。
现在就想动手?最快路径是:装好 Fetcher MCP,接入你的 AI 工具,随手丢一个 URL 看效果。整个流程不超 10 分钟。