10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

book-to-skill:将任何文档编译为 AI Skill,9 种格式支持 + 布局感知提取

1小时前 AI开源项目 0 0

我们每天接触的知识载体太多了:PDF 电子书、EPUB、DOCX 文档、团队内部的 Markdown 笔记……这些文件都会面临一个同样的问题:翻了好几遍,就是记不住。

你想让 AI 帮你记住它们,但格式五花八门,有的甚至连标题都没有。更麻烦的是,不同的格式提取效果差别很大——纯文字的书籍可以瞬间提取,但技术书籍里的表格、代码块却全部丢失。

最近在 GitHub 上发现了一个叫做 book-to-skill 的开源项目,可以支持 9 种不同的文档格式,并且会对技术书籍进行布局感知提取。目前已经获得 5000+ Star。

图片 1

这是目前最聪明的让 AI 学会一本书的方法。并不是让你读得更好,而是让 AI 直接学会书中的结构。

实际使用体验

用 OpenCode 执行 /book-to-skill E:\code\pdf\py.pdf,模型选择 DeepSeek。给的是 Python 算法 PDF,选择 1 开始识别提取。

图片 2

等待 3 分钟后,解析完毕就可以提问了。相关章节都已经找到,可以继续追问。

图片 3

图片 4

编译产物结构

book-to-skill 把书编译成一个完整的 Skill 文件,生成的结构如下:

图片 5

图片 6

  • SKILL.md 核心框架文件:包含心智模型和章节索引,是平时加载的核心部分。提出问题时,它会读取相应章节的内容。
  • chapters/ 按需加载章节:每章对应一个文件,每章约 1000 tokens。400 页的书约 20 万 tokens,采用按需加载机制,启动时只读取 SKILL.md,询问具体内容时才加载相关章节。
  • glossary.md 术语表:按字母顺序排列所有术语和章节索引。
  • patterns.md 模式库:收集所有技术、算法和设计模式。
  • cheatsheet.md 决策速查表:相当于书的"导航页",集中整理重要框架、决策规则和常见反模式。

苏米注:按需加载的设计很关键。如果每次对话都把整本书塞进上下文,Token 成本会非常高。这种架构让每次提问只消耗少量 Token 就能调用到书中知识结构。

与直接给 PDF 的区别

直接把 PDF 交给 DeepSeek,它做的是搜索——在原文里找到关键词并告诉你所在页码范围。而 book-to-skill 做的是提取——在编译时把作者花几年建立的框架、命名、心智模型都抽取出来。

当问到"Python 递归算法"时,得到的是"这本书上有关于递归算法的章节",而不会是一堆页码。

图片 7

效率方面,官方给出的对比数据:

提取方式 耗时 表格保留 代码块保留
普通文本提取(pdftotext) 0.1 秒 ❌ 全部丢失 ❌ 全部丢失
布局感知提取(Docling) 164 秒 ✅ 48 个 ✅ 36 个

图片 8

支持的 9 种格式

格式支持很全面:PDF、EPUB、DOCX、MOBI/AZW/AZW3 五种电子书格式,加上 TXT、Markdown、reStructuredText、AsciiDoc、HTML、RTF 等共 9 种。

安装使用

打开 OpenCode 直接说:帮我安装 https://github.com/virgiliojr94/book-to-skill。Claude Code、Codex、Hermes 等 AI 编程工具也可以。

图片 9

在 OpenCode 中直接调用:

~/path/to/your-book.pdf/book-to-skill
/your-book-slug replication 查询主题
/your-book-slug ch05 深入章节

注意事项

功能看起来很好,但实际使用有一些限制:

  • 章节识别有限制:一般需要"Chapter 1"或罗马数字等明显的章节标志。《Moby-Dick》这样的裸标题排版或《Pro Git》这样的文档可能无法正确拆分。
  • 技术 PDF 建议用 technical 模式:直接提取文本容易丢失标题层级和文档结构,用 Docling 按技术文档模式解析,虽然速度慢一些,但结构更完整。

踩坑记录:第一次用时拿一本章节标题不符合规范的书测试,结果整本书内容被当作一章。后来才发现要用 technical 模式,速度慢但结构完整。

总结

以前想让 AI 帮自己读一本书,只能把 PDF 塞进上下文或搭建 RAG。即使跑通了,每次对话消耗大量 Token,且 AI 一般只能给出零散信息,无法完整解释整本书的结构。

book-to-skill 的思路不同——它把一本书先编译成可复用的 Skill,之后提问时只需很少的 Token 就能调用书中知识结构。拿到的不是某几页的内容片段,而是一本书完整的思维框架。

开源地址:https://github.com/virgiliojr94/book-to-skill

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:book-to-skill:将任何文档编译为 AI Skill,9 种格式支持 + 布局感知提取
#book-to-skill #开源项目 #AI文档 #知识管理 #OpenCode 
收藏 1
Superpowers Agent Skills:using-superpowers、brainstorming、writing-plans 设计与规划纪律
微信小程序 vs 微信小游戏:技术栈、变现逻辑与开发选型全解析
推荐阅读
  • 说人话 Skill 详解:如何去除 AI 生成内容的翻译腔和工程师腔
  • DooTask:开源任务管理新选择,探索高效能与便捷性
  • NanoClaw:用 4000 行覆盖 OpenClaw 核心的极简之道,首个支持 Agent Swarms(智能体集群) 的 AI 助手
  • ChatWiki:基于微信的开源AI工作流平台,微信生态的AI知识库Agent构建平台
  • Advanced-PassGen:跨平台密码生成器,支持批量导出纯文本/CSV/JSON
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9610 8月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
9506 9月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
7465 5月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
6626 4月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
6503 9月前
CapCut API:一个剪映API开源项目,让AI自动剪辑视频
6447 5月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
6397 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
6347 8月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5773 9月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5718 8月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 book-to-skill:将任何文档编译为 AI Skill,9 种格式支持 + 布局感知提取
2 harness-anything:让 AI 直接操控 WPS、Photoshop 的开源桌面工具,47 个命令覆盖办公设计学术
3 qwen2API:将 Qwen 网页版转为标准 API 接口的开源网关,支持多账号轮询与 Docker 部署
4 BrowserAct:让 AI突破反爬虫检测的浏览器自动化 Skill
5 HyperFrames 与 html-video:两个 HTML 生成视频的开源项目对比
6 JoyAI-Echo开源:京东5分钟长视频生成框架,角色不崩+对话式编辑
7 docx-editor:浏览器端直接编辑 Word 的开源编辑器
8 花园开源4个神级Agent Skills:视频网页图片知识库
9 Odysseus:PewDiePie开源AI工作台一周5万Star
10 CopilotKit 开源:33.6K Star 的 Agentic App 基础设施,AG-UI 协议全解析
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联