当前位置：首页 » AI智能体

构建 AI 时代的知识底座：LLM Wiki 编译流水线实践

1小时前 AI智能体 13 0

领域知识决定了 AI 在业务中能发挥多大的价值。任何 AI 系统都由模型、知识、架构三部分组成——模型由供应商提供，架构常因模型升级而失效重做，只有领域知识只能从内部积累，不可替代且持续变化，是最值得长期投入的部分。

然而在实际团队中，知识散落在代码注释、配置、文档、沟通记录各处，带来两个严重后果：知识质量退化（口径不一致、文档无人维护）和工程熵增（重复建设、数据负债累积）。直接套 RAG 解决不了这个问题——RAG 只是给散落材料加了向量索引，知识本身的问题一个没解决。

LLM Wiki 的思路是：在检索之前加一道"编译过程"——把散落、矛盾、易腐化的源材料，预先加工为可被 AI 直接消费的结构化知识。

核心思想：LLM 作为编译器

LLM Wiki 不是一份"用 LLM 写出来的文档"，而是一份结构化、有约束、可验证的知识资产。它和传统文档的区别在四个层面：

结构可解析——每个页面是 frontmatter（YAML 元数据）+ 正文的双层结构，脚本可直接读取关系信息
层级可下钻——域按业务主题嵌套组织，形成可逐层下钻的树，支持渐进式披露
关系可遍历——页面之间的血缘、归属、消费关系以有向图形式显式记录
正确性可度量——分结构、语义、人工三层校验，从主观判断转为可度量的工程指标

构建过程抽象为六个步骤：提取 → 生成 → 归类 → 聚合 → 链接 → 验证，对应编译器的词法分析、代码生成、作用域解析、IR 构建、链接、静态分析，本质是一条将散落源材料编译为结构化知识的流水线。

LLM Wiki 与 RAG：互补而非冲突

用"编译时 vs 运行时"来理解：LLM Wiki 是编译时产物，把原始材料预处理成高质量的知识页面；RAG 是运行时手段，在查询时刻做精准召回。Wiki 提供高质量语料，RAG 提供精准召回，组合起来才是完整的检索栈。

知识构建的四个关键原则

1. 知识来源要全

编译时知识（DDL、任务代码、文档、接口配置、看板元数据）在构建阶段固化为 Wiki 页面；运行时知识（物理表数据、任务日志、监控指标）通过 Agent 工具调用现取。每张表不止抓 DDL，还要抓任务代码——DDL 提供结构信息，任务代码提供计算逻辑。

2. 知识构建要准

噪音过滤：入口粗筛 + 生成细筛，降低冲突量
代码即真相：不同来源描述不一致时，以任务代码为权威（它每天跑在生产上）
生成与判断分离：生成阶段强制留空推断内容，判断阶段独立跑一轮，经过机械门禁 + 人工门禁双重校验
证据链可追溯：每个页面保留 sources 字段，指向具体源材料

3. 知识的骨架是关系

把关系从正文中抽出来，显式存储为图。显式建图带来三个能力：

影响范围可计算——修改一张表后，沿图向下游遍历即可得到完整影响面
归属关系可聚合——任何一个域包含哪些资产，一次查询完成
枢纽节点可识别——按引用频次排序，发现数仓中的公共依赖和关键路径

4. 为检索而组织

知识聚合：把数百个分散页面收敛到少数几个域入口
渐进式披露：从全景概览定位相关域 → 从域定位关键页面 → 从页面获取字段和逻辑细节
多路召回：命中一个节点后，沿边扩展到血缘相关但关键词未命中的知识

架构设计

Wiki 系统以文件为底座，三层主干：

存储层：多级文件系统（pre/ → raw/ → wiki/），按生命周期隔离物料
知识模型层：Schema 定义页面契约（frontmatter + 正文模板），类似数据库的 DDL
计算层：Agent 编排，编排层与干活层分离

系统由 7 个 Skill 组成：编排器负责意图路由、用户确认、子 Agent 调度；6 个干活 Skill 各自覆盖编译流水线的一个阶段（材料预处理 → 基础生成 → 高阶生成 → 图构建 → 健康检查 → 运行时检索），通过文件系统约定的目录交互，可并行、可独立调试、可单独复用。

编译流水线三阶段

Phase 0：材料预处理——从外部系统抓取 DDL、任务代码等材料，经过完整性验证和三态分流（ready/pending/archive）。全脚本化执行，不依赖 LLM，支持断点续传。

Phase 1：Wiki 生成——基础生成（表、接口、数据集、概念四种基础页面，一对一映射）+ 高阶生成（域、看板、指标、维度等多对一聚合）+ 图构建（扫描 frontmatter 和 Wikilink 沉淀关系图）。批间串行、批内并行，5 路并发提速且上下文隔离。

Phase 2：健康检查——执行结构、链接、格式等多项校验，未通过的标记重生成。

实际效果

在数据模型迭代场景中，传统人工做法依赖逐表排查 SQL 代码，耗时易出错。基于 LLM Wiki：

血缘查询时间：30 分钟 → 2 分钟（15× 提效）
下游表遗漏率：20% → 0%（强制完整性校验）
SQL 生成时间：0.5 天 → 10 分钟（72× 提效）
风险判定：从"凭经验"升级为标准化二维矩阵

模型迭代影响分析从半天缩短到小时级，数据研发工程师从"查代码、写 SQL"的机械工作中解放，聚焦在"决策确认"的高价值环节。

总结

LLM Wiki 的本质是把知识管理从"人写文档"升级为"LLM 编译 + 人工确认"。领域知识只能从内部积累，而 LLM 编译器把散落的源材料加工为结构化、可验证、可检索的知识资产。它不取代 RAG，而是为 RAG 提供高质量的语料基础。两者组合，才是 AI 时代知识管理的完整方案。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：构建 AI 时代的知识底座：LLM Wiki 编译流水线实践

请登录后发表评论