10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI智能体

告别手工抓取:用 OpenClaw + Playwright 让 AI 稳准提取网页内容

1小时前 AI智能体 25 0

最近用Openclaw做自动化任务时,遇到一个老大难:让 AI 抓网页内容,为什么总这么折腾?

用 curl?多数页面都靠 JS 渲染——返回一层空壳 HTML,信息寥寥。

用传统爬虫?一圈环境配置下来,时间全搭进去了。

更别说当下主流网站大多是 React/Vue 构建的 SPA,静态抓取基本没戏。

直到我把 OpenClaw 和 Playwright 绑在一起,才真正跑通“让 AI 读懂网页”的闭环。

OpenClaw 是什么?为什么它能搞定内容提取

OpenClaw 是一个开源的 AI Agent 框架,目标很直接:让 LLM 真正“操作”浏览器。

底层用 Playwright 驱动真实浏览器。

聪明点在这里:不走“看截图”的高 token 路线,而是利用 Accessibility Snapshot,把页面结构转译成 LLM 可理解的语义骨架。

换句话说,给 AI 配了副能直视 DOM 结构的“眼镜”,准确、轻量、对 token 友好。

两种控制模式,按需选择

Chrome 扩展模式:适合已登录的网站,复用浏览器登录态做后续操作。

Headless 模式:适合纯自动化,无界面后台执行。做内容提取,一般用它就够。

主流四种方案,定位清晰各有所长

方案一:openclaw-web-scraper

GitHub 项目:LiranUdi/openclaw-web-scraper。最大特点:零配置、开箱即用。

    • 基于 Playwright + Chromium,不需要任何 API Key。
    • 浏览器会话长驻,支持多步操作(打开→点击展开→提取内容)。
    • 输出直接是 Markdown,上手即用。

方案二:Fetcher MCP

项目:jae-jae/fetcher-mcp。我的常用首选,实用和易用平衡最佳。

    • 内置 Readability(Firefox 阅读模式同源),自动抽取正文,过滤广告/导航/侧栏。
    • 支持并发批量抓取:fetch_urls 可一次投十来个链接,高效稳定。
    • 输出支持 HTML 和 Markdown。

方案三:Microsoft Playwright MCP

微软官方出品,工具链齐全(25+ 工具)。

    • 覆盖导航、点击、表单、截图、PDF 等复杂交互。
    • 对纯内容提取偏重:工具太多会让 AI出现“选择困难症”。Bug0 的评测称之为 Tool Proliferation Problem(工具泛滥问题)。
    • 更适合登录、填表、多步骤流程等自动化场景。

方案四:Playwright Scraper MCP

项目:dennisgl/mcp-playwright-scraper。哲学与微软方案相反。

    • 只提供一个工具:scrape_to_markdown。
    • URL 进,Markdown 出,简单粗暴但真好用。
    • 无需 AI 做任何决策,直接调用即可。

怎么选?一张表述清楚

  • 只提取正文、追求简单:选 Playwright Scraper MCP。
  • 提取正文且需要批量抓:选 Fetcher MCP。
  • 涉及登录、点击、填表等复杂交互:选 Microsoft Playwright MCP。
  • 希望在 OpenClaw 生态里跑:选 openclaw-web-scraper。

实操演示:10 分钟跑通内容提取(以 Fetcher MCP 为例)

第一步:安装

npm install -g @anthropic/fetcher-mcp

第二步:配置 MCP Server

{
  "mcpServers": {
    "fetcher": {
      "command": "fetcher-mcp",
      "args": []
    }
  }
}

第三步:调用

在你的 AI 工具里直接让它提取:

帮我提取这个页面的主要内容:https://www.example.com/article

AI 会自动调用 Fetcher MCP,后台启动 Headless 浏览器;待页面 JS 渲染完成后,Readability 抽取正文,返回干净的 Markdown。

如果偏好 openclaw-web-scraper,流程也相近:安装后以 --headless 模式启动,通过 Unix Socket 维持会话,支持多步交互。

几个容易踩的坑(提前规避事半功倍)

  • Shadow DOM 是 2026 年最头疼的点。很多组件库(Shoelace、Lit 以及企业内建组件)把元素藏在 Shadow Root 里,Accessibility Snapshot 看不到。遇到这类页面,可能需要降级为直接执行 JS 提取。
  • 登录态内容请用 Chrome 扩展模式。Headless 每次是全新会话,遇到需要登录的网站会被挡住;OpenClaw 的扩展模式能复用现有登录状态。
  • 工具越多不一定越好。纯内容提取别上 Microsoft Playwright MCP 的全套 25 工具;工具少更利于 AI 快速决策、降低 token 消耗。Bug0 的结论很明确:一个灵活的工具,胜过一堆“精确但繁杂”的工具。
  • 不想本地装 Playwright?试试 Apify 的云端方案,浏览器跑在他们的服务器上,你本地零依赖。

现在就想动手?最快路径是:装好 Fetcher MCP,接入你的 AI 工具,随手丢一个 URL 看效果。整个流程不超 10 分钟。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:告别手工抓取:用 OpenClaw + Playwright 让 AI 稳准提取网页内容
#OpenClaw #Playwright 
收藏 1
装个 OpenClaw 收 500,简直就是智商税,真正值钱的是你会不会用 OpenClaw?
手把手教你部署 OpenClaw + Ollama + GLM-4.7-Flash 的纯本地方案,实现无需服务器、无模型调用费用、离线可用的 AI 助手
推荐阅读
  • 小智Pro:让小智接入 OpenClaw,一个 MCP 接通海量 Skills,24×7 在线打工人
  • 为什么部署OpenClaw后还需要装Skills?OpenClaw四大核心Skills完全实战指南
  • Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
  • 告别手工抓取:用 OpenClaw + Playwright 让 AI 稳准提取网页内容
  • 如何用开源Agent框架 Nanobot + Ollama 快速搭建低成本本地AI助手
评论 (0)
请登录后发表评论
分类精选
Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
1578 5天前
为什么部署OpenClaw后还需要装Skills?OpenClaw四大核心Skills完全实战指南
364 4天前
OpenClaw 装好了别只聊天:5 个进阶玩法从入门到实战
234 3天前
如何用开源Agent框架 Nanobot + Ollama 快速搭建低成本本地AI助手
136 昨天
搞清楚这些配置文件,让你快速上手OpenClaw !
103 昨天
OpenClaw纯视觉接入微信群聊方案,无需Hook与公网(附配置)
53 6小时前
小智Pro:让小智接入 OpenClaw,一个 MCP 接通海量 Skills,24×7 在线打工人
36 6小时前
告别手工抓取:用 OpenClaw + Playwright 让 AI 稳准提取网页内容
26 1小时前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 告别手工抓取:用 OpenClaw + Playwright 让 AI 稳准提取网页内容
2 OpenClaw纯视觉接入微信群聊方案,无需Hook与公网(附配置)
3 小智Pro:让小智接入 OpenClaw,一个 MCP 接通海量 Skills,24×7 在线打工人
4 如何用开源Agent框架 Nanobot + Ollama 快速搭建低成本本地AI助手
5 搞清楚这些配置文件,让你快速上手OpenClaw !
6 OpenClaw 装好了别只聊天:5 个进阶玩法从入门到实战
7 为什么部署OpenClaw后还需要装Skills?OpenClaw四大核心Skills完全实战指南
8 Multi-Agent(多智能体)实战:OpenClaw x 飞书机器人,为每个业务场景打造专属多Agent项目协作群
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联