10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

webclaw:1.5K Star 的 AI 网页提取工具,Token 优化 90%,速度快 20 倍

1小时前 AI开源项目 11 0

最近在构建 RAG 系统时,需要将大量技术文档喂给大模型。一开始使用常规的网页抓取方案,结果抓回来的内容惨不忍睹——导航栏、页脚、广告、脚本代码混在一起,50000 token 的 HTML 里真正有用的内容不到 800 token。

更麻烦的是,有些网站加了 Cloudflare 防护,直接返回 403 或验证码页面。用 Playwright 跑无头浏览器又慢又重,一个请求要等好几秒。尝试了 trafilatura、newspaper3k、readability 等开源项目,效果都不理想。

直到发现了 webclaw,一款专为 AI 工作流设计的高性能网页提取工具。

图片 1

项目介绍

webclaw 的核心目标很明确:把网页转成干净、结构化、适合大模型使用的内容。

图片 2

不同于传统抓取工具,webclaw 从底层重新设计了整个提取流程。它用 Rust 编写,通过 TLS 指纹模拟浏览器行为,无需启动真正的浏览器就能绕过大多数反爬机制。提取引擎会自动识别并剔除导航栏、广告、脚本等无用信息,只保留核心正文。

核心亮点

Token 优化:减少 90% 无效信息

原始 HTML 页面通常包含大量导航链接、CSS 样式、脚本代码和重复的页脚内容。这些信息对人类阅读是必要的,但对 AI 模型纯粹是浪费 token。

webclaw 采用九步优化流水线,通过文本密度、语义标签、链接比例、位置信息和上下文相关性等指标对 DOM 节点综合评分。导航栏、广告、页脚、评论区等低分值节点会被自动剔除,而文章正文、标题、图片说明等高分值节点会被保留并整理。

极速响应:比 Chrome 方案快 20 倍

传统的 Playwright、Selenium 方案需要启动完整的浏览器实例,加载渲染引擎、JavaScript 引擎、CSS 解析器等,每个请求耗时 2-3 秒。对于需要频繁访问网页的 AI Agent 来说,这种延迟无法接受。

webclaw 不启动浏览器,而是在 TLS 层面模拟浏览器行为——TCP 握手、加密套件、扩展信息、指纹特征全部模拟 Chrome 的行为,让反爬系统误以为是真实用户访问。性能表现:

  • 静态页面平均响应时间仅 118ms
  • 本地提取 10KB 页面只需 0.8ms
  • 本地提取 100KB 页面只需 3.2ms
  • 本地提取 500KB 页面只需 12.1ms
  • 整体性能比基于 Chrome 的方案快 20 倍

原生 MCP 支持:无缝接入 AI Agent

webclaw 内置了 MCP(Model Context Protocol)服务器,可以直接接入 Claude Code、Cursor、Windsurf、OpenCode、Codex 等主流 AI 工具,无需编写适配代码。

只需一行命令即可完成配置:

npx create-webclaw

该命令会自动检测已安装的 AI 工具,并为每个工具生成相应配置文件。配置完成后重启 AI 工具,webclaw 的所有功能就会自动可用,Agent 可以直接执行网页抓取、站点爬取、内容对比、品牌信息提取等操作。

智能反爬绕过:自动应对 Cloudflare

现代网站普遍使用 Cloudflare、Akamai、DataDome 等反爬系统。这些系统会检查 TLS 指纹、浏览器特征等,普通的 HTTP 请求很容易被拦截。

webclaw 通过 primp 库在底层模拟 Chrome 的 TLS 指纹,使请求看起来完全像来自真实浏览器。对于需要 JavaScript 渲染的页面,webclaw 会自动检测并切换到渲染路径,无需手动配置。

丰富的输出格式

webclaw 支持多种输出格式:

格式 适用场景
markdown 保留结构的干净内容
llm 专为大模型优化的紧凑格式
text 纯文本,最小化格式
json 结构化元数据和提取字段
html 清理后的 HTML

其中 llm 格式会进一步去除重复链接、空段落等,是喂给 RAG 系统的最佳选择。

快速上手

方法一:MCP 一键安装(推荐)

npx create-webclaw

方法二:Homebrew(macOS)

brew tap 0xMassi/webclaw
brew install webclaw

方法三:预编译二进制

从 GitHub Releases 页面下载 macOS 或 Linux 二进制文件:github.com/0xMassi/webclaw/releases

方法四:Docker

docker run --rm ghcr.io/0xmassi/webclaw https://example.com

使用示例

基础提取:

# 提取单页内容(默认 markdown 格式)
webclaw https://example.com

# 指定输出格式
webclaw https://example.com --format markdown
webclaw https://example.com --format llm
webclaw https://example.com --format json

只保留主内容:

webclaw https://example.com/blog/post --only-main-content

自定义选择器:

webclaw https://example.com \
  --include "article, main, .content" \
  --exclude "nav, footer, .sidebar, .ad"

爬取文档站:

webclaw https://docs.rust-lang.org --crawl --depth 2 --max-pages 50

提取品牌信息:

webclaw https://github.com --brand

页面变化对比:

# 保存快照
webclaw https://example.com/pricing --format json > pricing-old.json

# 对比变化
webclaw https://example.com/pricing --diff-with pricing-old.json

SDK 使用

TypeScript:

import { Webclaw } from "@webclaw/sdk";
const client = new Webclaw({
  apiKey: process.env.WEBCLAW_API_KEY!
});
const page = await client.scrape({
  url: "https://example.com",
  formats: ["markdown"],
  only_main_content: true,
});
console.log(page.markdown);

Python:

from webclaw import Webclaw
client = Webclaw(api_key="wc_your_key")
page = client.scrape(
    "https://example.com",
    formats=["markdown"],
    only_main_content=True,
)
print(page.markdown)

总结

webclaw 是一款真正理解 AI 工作流需求的网页提取工具。它从底层重新设计了网页提取流程,通过 TLS 指纹模拟、智能内容评分、多格式输出等特性,解决了传统抓取工具的三大痛点:

  • 抓不到——反爬防护
  • 抓不干净——大量噪声
  • 抓了没用——格式不适合 AI

如果你正在构建 RAG 系统、AI Agent,或者需要定期抓取网页内容,webclaw 值得一试。

GitHub:github.com/0xMassi/webclaw

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:webclaw:1.5K Star 的 AI 网页提取工具,Token 优化 90%,速度快 20 倍
#webclaw #网页提取 #AI工具 #MCP #网页抓取 
收藏 1
字节 Seed-Audio 1.0 实测:从语音合成到语音创作的突破
这是最后一篇
推荐阅读
  • LlamaIndex:5 行代码把私有数据变成超级大脑(入门与实践指南)
  • DataGear:自由构建数据看板的开源可视化平台,支持数据源、SQL工作台、导入/导出、项目管理、数据集、图表、看板、数据源驱动、图表插件等
  • webclaw:1.5K Star 的 AI 网页提取工具,Token 优化 90%,速度快 20 倍
  • FireRedTTS-2:开源多语言多人对话 TTS,支持零样本语音克隆
  • AingDesk:一站式本地AI桌面平台,3分钟部署大模型,免费开源可离线运行
评论 (0)
请登录后发表评论
分类精选
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9963 9月前
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9809 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7762 5月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
7045 6月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6872 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6770 9月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6662 9月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6639 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5941 10月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5902 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 webclaw:1.5K Star 的 AI 网页提取工具,Token 优化 90%,速度快 20 倍
2 rmux:专为 Agent 打造的 Rust 终端复用工具,兼容 tmux
3 Perry 开源编译器:把 TypeScript 直接编译为原生二进制,告别 Node.js 运行时依赖
4 BrowserAct:AI Agent 浏览器自动化工具,突破网页访问限制
5 PixiJS v8.19 发布:HTML-in-Canvas 正式落地,DOM 进入 GPU 渲染管线
6 FastClaw 开源框架评测:从 OpenClaw 到云原生多 Agent 架构的演进
7 Nub JS 工具链实测:基于 Node 的 Rust 工具集,nub run 比 pnpm 快 24 倍
8 mattpocock/skills 开源项目:14 万 Star,用标准化流程解决 AI 编程意图对齐难题
9 AudioX-Turbo 开源音频生成模型:4 步极速出音效,支持文本/视频多模态输入
10 DBX 开源数据库客户端:Navicat 轻量替代,SQL 编辑/结构对比/数据迁移全支持
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联