在调研 AI2PPT 相关产品和方案时,我逐渐意识到一个问题:
多数工具解决的是“生成 PPT”,而不是“如何生成一份像人做的 PPT”。
很多方案本质上只是把文本拆成要点,再套一个模板,短时间可用,但一旦面对论文、技术文档或复杂业务汇报,结构和逻辑问题就会暴露得很明显。
也是在这个过程中,我注意到了一个相对“工程化思路更完整”的开源项目 —— PPTAgent。
它并不是简单做文本转幻灯片,而是尝试复现人类制作演示文稿的过程:
先分析已有优秀 PPT 的结构模式,再生成新的幻灯片内容。
PPTAgent 是什么
PPTAgent 是由 中科院计算所(ICIP-CAS)团队 开源的一套 AI 系统,核心目标是:
将 Markdown / PDF 等文档,自动转换为结构清晰、视觉统一的 PowerPoint 演示文稿。

项目地址:
GitHub:https://github.com/icip-cas/PPTAgent
目前 Star 数已超过 3k,在学术与工程圈都有一定关注度。
从定位上看,它更接近一个 “演示文稿生成系统”,而不是单一功能脚本。

它试图解决哪些真实问题
从产品角度拆解,PPTAgent 主要聚焦在以下几个长期存在但很少被系统解决的问题:
-
文档 → 演示大纲的结构提炼成本高
-
内容逻辑和版式设计之间缺乏统一约束
-
普通用户难以判断生成 PPT 的质量好坏
-
不同主题、不同风格的 PPT 难以复用设计经验
PPTAgent 的设计思路不是“替你画 PPT”,而是把制作流程模块化、自动化,让人更多聚焦在内容本身。

核心能力拆解(功能层面)
1. 基于参考 PPT 的模式学习(Induct 阶段)
PPTAgent 的一个关键差异点在于:
它不是预置固定模板,而是从真实 PPT 中学习结构模式。

这一阶段主要做三件事:
-
解析参考 PPT 的页面布局
-
识别内容组织方式(标题-要点-图像关系)
-
抽象为可复用的“幻灯片模式库”
整个过程不需要人工标注,适合已有大量 PPT 资产的团队或个人。
2. 文档到幻灯片的生成流程(PPTGen 阶段)
在生成阶段,系统会:
-
解析 Markdown / PDF 文档内容
-
提取关键信息并重组为演示大纲
-
根据模式库匹配合适的版式
-
自动生成文本、图像与样式
这里的重点不是“生成更多内容”,而是限制内容密度,使其更适合展示场景。
3. 内置的 PPT 质量评估机制(PPTEval)
这是我个人比较认可的一点。
PPTAgent 并没有把“生成即结束”作为终点,而是提供了一个评估框架 PPTEval,从三个维度打分:
-
Content:内容准确性与相关性
-
Design:视觉一致性与版式合理性
-
Coherence:整体逻辑是否连贯
对于希望在此基础上做二次优化或自动调参的用户,这个评估层非常有价值。
技术架构与工作流程概览
从工程实现上,PPTAgent 是一个典型的 多阶段 AI 工作流系统。

两阶段核心流程
第一阶段:Induct(分析)
-
解析参考 PPT
-
提取布局与结构模式
-
构建模式库(JSON 配置)
第二阶段:PPTGen(生成)
-
文档解析与信息抽取
-
构建演示大纲
-
匹配版式并生成幻灯片
-
调用 PPTEval 做质量评估
主要模块划分
| 模块 | 作用 |
|---|---|
| presentation | 解析 PowerPoint 文件 |
| document | 处理 Markdown / PDF 输入 |
| agent.py | 多角色调度与流程控制 |
| llms.py | LLM / AsyncLLM 封装 |
| induct.py | 模式分析阶段实现 |
| pptgen.py | 幻灯片生成阶段 |
| pptagent_ui | Web 操作界面 |
| PPTEval | 质量评估框架 |
整体结构清晰,适合做二次开发或研究型使用。
技术栈一览(供评估部署成本)
| 类别 | 技术 |
|---|---|
| 语言 | Python 3.11+ |
| 后端 | FastAPI, Uvicorn |
| 前端 | Node.js |
| 文档处理 | python-pptx, pdf2image, Pillow |
| LLM | GPT-4.1 / Qwen2.5 等 |
| 视觉模型 | Qwen2.5-VL |
| 部署 | Docker |
| 其他 | aiohttp, PyYAML, Jinja2 |
需要注意:
完整效果更依赖 70B 级别模型,对硬件和 API 成本有一定要求。
典型应用场景
从实际使用角度,我认为 PPTAgent 更适合以下场景:
-
学术论文 → 会议演示
-
技术文档 → 内部分享
-
产品说明 → 路演材料
-
教案 → 教学 PPT
-
业务报告 → 汇报演示
尤其适合内容密集但设计能力有限的人群,如研究人员、产品经理、教师等。
优缺点复盘
优势
-
完全开源,可定制与二次开发
-
两阶段生成思路更接近人工流程
-
提供 UI,降低使用门槛
-
支持多格式输入与模板扩展
-
内置评估机制,利于优化闭环
局限
-
对算力和模型要求较高
-
当前不支持 Windows
-
复杂版式 PPT 的解析仍有限
-
图像生成结果依赖外部模型质量
安装与部署方式概览
Docker(推荐)
访问:http://localhost:8088
本地运行
需提前准备 Python 3.11+、LibreOffice、Chrome 等依赖。
相似项目简单对比
| 项目 | 特点 |
|---|---|
| PPTAgent | 两阶段生成 + 评估 |
| AI2PPT 类 SaaS | 上手快,但定制性低 |
| Pandoc + 模板 | 稳定,但缺少智能结构 |
结尾总结
从产品和工程角度看,PPTAgent 更像一套“可研究、可扩展”的 PPT 生成系统,而不是即用型工具。
如果你追求的是:
-
可控的生成逻辑
-
可复用的设计模式
-
能融入自己工作流的 AI 组件
那 PPTAgent 值得深入看看;
如果你只是临时做几页展示,市面上的在线工具可能更省事。
对我来说,它最大的价值不只是“做 PPT”,而是提供了一种可被复用的演示文稿生成思路,这一点,在当前的 AI2PPT 方案中并不多见。