当前位置：首页 » AI智能体

告别手工抓取：用 OpenClaw + Playwright 让 AI 稳准提取网页内容

4月前 AI智能体 2219 0

最近用Openclaw做自动化任务时，遇到一个老大难：让 AI 抓网页内容，为什么总这么折腾？

用 curl？多数页面都靠 JS 渲染——返回一层空壳 HTML，信息寥寥。

用传统爬虫？一圈环境配置下来，时间全搭进去了。

更别说当下主流网站大多是 React/Vue 构建的 SPA，静态抓取基本没戏。

直到我把 OpenClaw 和 Playwright 绑在一起，才真正跑通“让 AI 读懂网页”的闭环。

OpenClaw 是什么？为什么它能搞定内容提取

OpenClaw 是一个开源的 AI Agent 框架，目标很直接：让 LLM 真正“操作”浏览器。

底层用 Playwright 驱动真实浏览器。

聪明点在这里：不走“看截图”的高 token 路线，而是利用 Accessibility Snapshot，把页面结构转译成 LLM 可理解的语义骨架。

换句话说，给 AI 配了副能直视 DOM 结构的“眼镜”，准确、轻量、对 token 友好。

两种控制模式，按需选择

Chrome 扩展模式：适合已登录的网站，复用浏览器登录态做后续操作。

Headless 模式：适合纯自动化，无界面后台执行。做内容提取，一般用它就够。

主流四种方案，定位清晰各有所长

方案一：openclaw-web-scraper

GitHub 项目：LiranUdi/openclaw-web-scraper。最大特点：零配置、开箱即用。

- 基于 Playwright + Chromium，不需要任何 API Key。
- 浏览器会话长驻，支持多步操作（打开→点击展开→提取内容）。
- 输出直接是 Markdown，上手即用。

方案二：Fetcher MCP

项目：jae-jae/fetcher-mcp。我的常用首选，实用和易用平衡最佳。

- 内置 Readability（Firefox 阅读模式同源），自动抽取正文，过滤广告/导航/侧栏。
- 支持并发批量抓取：fetch_urls 可一次投十来个链接，高效稳定。
- 输出支持 HTML 和 Markdown。

方案三：Microsoft Playwright MCP

微软官方出品，工具链齐全（25+ 工具）。

- 覆盖导航、点击、表单、截图、PDF 等复杂交互。
- 对纯内容提取偏重：工具太多会让 AI出现“选择困难症”。Bug0 的评测称之为 Tool Proliferation Problem（工具泛滥问题）。
- 更适合登录、填表、多步骤流程等自动化场景。

方案四：Playwright Scraper MCP

项目：dennisgl/mcp-playwright-scraper。哲学与微软方案相反。

- 只提供一个工具：scrape_to_markdown。
- URL 进，Markdown 出，简单粗暴但真好用。
- 无需 AI 做任何决策，直接调用即可。

怎么选？一张表述清楚

只提取正文、追求简单：选 Playwright Scraper MCP。
提取正文且需要批量抓：选 Fetcher MCP。
涉及登录、点击、填表等复杂交互：选 Microsoft Playwright MCP。
希望在 OpenClaw 生态里跑：选 openclaw-web-scraper。

实操演示：10 分钟跑通内容提取（以 Fetcher MCP 为例）

第一步：安装

npm install -g @anthropic/fetcher-mcp

第二步：配置 MCP Server

{
  "mcpServers": {
    "fetcher": {
      "command": "fetcher-mcp",
      "args": []
    }
  }
}

第三步：调用

在你的 AI 工具里直接让它提取：

帮我提取这个页面的主要内容：https://www.example.com/article

AI 会自动调用 Fetcher MCP，后台启动 Headless 浏览器；待页面 JS 渲染完成后，Readability 抽取正文，返回干净的 Markdown。

如果偏好 openclaw-web-scraper，流程也相近：安装后以 --headless 模式启动，通过 Unix Socket 维持会话，支持多步交互。

几个容易踩的坑（提前规避事半功倍）

Shadow DOM 是 2026 年最头疼的点。很多组件库（Shoelace、Lit 以及企业内建组件）把元素藏在 Shadow Root 里，Accessibility Snapshot 看不到。遇到这类页面，可能需要降级为直接执行 JS 提取。
登录态内容请用 Chrome 扩展模式。Headless 每次是全新会话，遇到需要登录的网站会被挡住；OpenClaw 的扩展模式能复用现有登录状态。
工具越多不一定越好。纯内容提取别上 Microsoft Playwright MCP 的全套 25 工具；工具少更利于 AI 快速决策、降低 token 消耗。Bug0 的结论很明确：一个灵活的工具，胜过一堆“精确但繁杂”的工具。
不想本地装 Playwright？试试 Apify 的云端方案，浏览器跑在他们的服务器上，你本地零依赖。

现在就想动手？最快路径是：装好 Fetcher MCP，接入你的 AI 工具，随手丢一个 URL 看效果。整个流程不超 10 分钟。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：告别手工抓取：用 OpenClaw + Playwright 让 AI 稳准提取网页内容

#OpenClaw #Playwright

请登录后发表评论