当前位置：首页 » AI开源项目

开源FigEdit：AI图片一键转可编辑PPTX/SVG，17个案例实测还原度90%+

1小时前 AI开源项目 11 0

最近终于解决了一个头疼很久的问题——AI 生成的图片无法编辑。

经常用 GPT Image 2、Nano Banana 的朋友都知道，无论是图片流 PPT、信息图、技术架构图还是论文配图，做出来可能就一句话的事，但修改起来贼麻烦。虽然可以用自然语言让 AI 重新出图，但可控性和灵活度远远不够。根本没法像在 Visio 或 PowerPoint 里一样自由调整文字、图框和各种素材。

找了很久，都没发现既能把复杂图形完美转为可编辑格式，又不要求本地部署大模型、轻松好上手的方案。于是自己做了这个 Skill——FigEdit · 图易编。

给它一张截图、论文配图、AI 生成的幻灯片、技术架构图，或者任何图片格式的图形，它会把图片拆解重建成可编辑的矢量图形包。从此图片编辑自由不是梦。

这些场景都能用

虽然初衷是解决 AI 图片不可编辑的问题，但实际应用场景非常广。凡有图片矢量化需求，它都能搞定：

AI 生成的图片不能编辑？GPT Image 2、Nano Banana 生成的幻灯片、架构图画面惊艳，但全是像素。FigEdit 把布局提取成真正的 PowerPoint 元素，文本框能编辑、形状能移动、背景能替换。

看到好看的论文图想复刻？想复刻优质图示的图框、形状、布局、配色。FigEdit 把图重建成可编辑结构，30 秒改完标签、替换元素，不用从头画一小时。

图片原始可编辑版本丢失？设计师交付的精美信息图，可编辑源文件丢了或从未共享。FigEdit 拆成可编辑的 SVG，框架变矢量，图标保留为干净的裁切图，文字变成可选中的文本。

转换效果很能打

下面八个案例都是原图与 FigEdit 重建结果的对比。很多图几乎可以做到 100% 还原重建，不仔细对比可能看不出差异。

案例一：PPT 结构拆解

对信息图和 PPT 式版面的混合重建，解决 AI 图片流 PPT 不可编辑问题。卡片、标题、文字、箭头和时间线保持可编辑，具有来源特征的插图保留为可替换图片资产。

案例二：图标与结构混合图

常见论文图，图标、公式、结构化面板和流程关系并存时的混合重建。普通文字、框架、箭头和公式保持可编辑，模型标识与来源特异图形保留为可替换图片资产。

案例三：全矢量重绘

简约形状图，FigEdit 实现完整矢量重绘。原图中的面板、曲线、热力图、节点、连接线和普通文字均被重建为可编辑对象，没有使用栅格插图资产。

案例四：大量图片资产裁切

以图片资产为主的复杂结构图。面板、标题、分隔线、流程箭头和普通标签被重建为可编辑对象，服装、人物、截图、图标与缩略图则保留为可替换的原始裁切资产。

案例五：多要素混合重构

地图、手机界面、路线图、模型标识、指标卡和大量文本共同出现时的多要素混合重建。规则版面和普通文字保持可编辑，地图与来源特异图形作为图片资产保留。

案例六：复杂公式复现

公式密集型论文方法图。FigEdit 重建了多层面板、流程关系、树结构和数学表达式，并将 50 个公式导出为可编辑的 PowerPoint Office Math 对象。

案例七：公式与图片资产混合重建

复杂论文图的混合重建。版面、标题、流程线、张量示意和公式被重建为可编辑对象，视频帧、相机网格和三维图等视觉证据则作为可替换图片资产保留。

案例八：多分组数据图表重建

技术报告图，多分组柱状图的重建。标题、图例、数值、坐标标签、柱体和分组结构均为可编辑对象，模型 Logo 作为可替换图片资产保留。

为什么要用 FigEdit？

把一张扁平图片变回可编辑文件，难点不只是识别画面里有什么，而是判断每个元素应该以什么形式呈现。是让 AI 完全重绘，还是直接裁剪拼接？哪些元素重新生成，哪些要精准提取？真实世界的图片里会出现什么往往不可预测，现有方案各有各的问题。

FigEdit 理念与 Edit-Banana、CraftEditor 类似，但它采用更智能的混合重建策略，只求最完美的可编辑还原：

文字、标题、普通标注重建为可编辑文本
公式识别为独立的语义对象，并保留原有的格式样式
面板、形状、边框、箭头和连接关系重建为矢量对象
Logo、照片、截图、地图、复杂图标等来源特异的视觉内容，直接从原图裁切保留
最终同时输出 SVG、内嵌资产 SVG 和原生可编辑 PPTX

只需要一个足够强的 Agent，就能全自动完成图片分析、拆解、重建、导出和质量检查。

怎么使用？

一句话安装

FigEdit 是基于 AI Agent 环境的 Skill，理论上当前所有 Agent 都能支持运行。不过图片重建质量高度依赖模型视觉理解与 SVG 绘制能力，不同模型表现差异极大。优先推荐 Codex、Claude Code，这两个公认最强的 Agent 搭配最强的模型，可以发挥 FigEdit 的最高上限。

用起来很简单，把项目地址发给你的 Agent，说一句：

帮我安装这个 skill：
https://github.com/giszzt/figedit

装好之后，在 Agent 里发送任意图片说一句话就行，模型会跑完整个流水线，把输出包交付到你的项目目录。

实战案例

以一个典型的技术框架图为例，讲讲 FigEdit 的图片矢量化工作逻辑。这张图每个技术环节都有大量的定制照片、图标素材，这么复杂的图片要素，FigEdit 怎么处理呢？

拿到图它不会盲目开干，先大概判断这属于什么类型的图，识别哪些元素要重绘或者精细裁剪保真。

接下来会调用文字与图形识别模块，对原图中的文字、图形化元素、图片大小等信息进行初步识别分析。这一步拿到测量报告传给 Agent 主模型作参考，由模型思考确定整体布局，不同元素如何排列组合。

模型分析完结果，定好重建策略，就按施工路线图开干。

生成完初步结果，Agent 会执行自动检查，看看当前重建的图有哪些质量问题。一般而言，最多两轮就会完成所有检查与重构精修，超级复杂的图检查工序可能会多点。

最后输出的结果不仅有直接编辑使用的 SVG、PPTX 文件，还有质量报告、裁剪资源包以及各类说明文档。

如果对结果不满意，本次输出的这些资源也能给下一次优化参考，无需重头再来。通常还原出来的图都有九十分以上了，剩下的小细节可以编辑微调。毕竟 Token 很贵，能省点是一点。

说到成本，ChatGPT Plus 会员用 Codex 处理一张图通常消耗周额度在 5% 以内。除非是特别复杂的图，处理时间一般不会超过 10 分钟，Claude Code 也差不多。

写在最后

这个 Skill 的诞生很意外。原本觉得这种复杂需求必须要专业机构或者研究团队研发，结果那天跟 ChatGPT 随口一聊，它不到五分钟就把图搞出来。虽然很粗糙，但着实把我惊到了。

于是这两周在 Codex 里断断续续打磨 Skill，过程中除了主要的 skill.md 文件，都没怎么看过它生成的各种脚本代码。就这么一路聊过来，提需求、找问题、反馈迭代，稳定跑起来。

很多时候，是人的认知视野和想象力限制了 AI 的发挥空间。不是它做不到，而是你以为它做不到。

只要能把"定义需求——AI 执行——测试结果——反馈问题——AI 执行"这个链路中 AI 以外的部分做好，理论上可以做出任何想要的 Skill，甚至更复杂的产品。不设限，大胆给 AI 提要求，也许就会迸射出意想不到的火花。

项目地址：github.com/giszzt/figedit

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：开源FigEdit：AI图片一键转可编辑PPTX/SVG，17个案例实测还原度90%+

请登录后发表评论