#网页提取
webclaw:1.5K Star 的 AI 网页提取工具,Token 优化 90%,速度快 20 倍
最近在构建 RAG 系统时,需要将大量技术文档喂给大模型。一开始使用常规的网页抓取方案,结果抓回来的内容惨不忍睹——导航栏、页脚、广告、脚本代码混在一起,50000 token 的 HTML 里真正有用的内容不到 8…