最近在体验AI生图工具时,我发现了一个有趣的现象:GPT-4V在图像生成上表现出色,但生成的往往是合并的扁平图像,后续编辑仍需人工介入Photoshop逐层调整。这个痛点在设计协作中尤为明显。经过一段时间的探索和开发,我将一套从AI生图到可编辑PSD的完整工作流打包成了开源Skill,今天想分享这个过程中的技术思路和实际效果。
核心问题与现有方案
目前市面上的AI设计Agent(如Lovart等)虽然提供了对生成图片的编辑功能,但大多基于网页端的单次处理模式。我在使用ChatGPT的Photoshop插件时发现,它可以通过连接Photoshop应用,将合并图像拆分成多个图层并输出PSD文件。但这个方案存在明显局限:
- 图层拆分精度有限:网页端通常拆出7层左右,且容易产生边缘污点和图层混乱
- 缺乏迭代机制:一次生成即结束,无法对中间结果进行自检和修正
- 复杂设计支持不足:对层次复杂的设计图处理效果一般
技术架构与解决方案
通过分析ChatGPT的处理流程,我发现其底层调用了Python的psd-tools包。这意味着图层拆分的精细度本质上取决于Python脚本的逻辑,而非ChatGPT本身的能力限制。由此衍生出核心思路:利用Codex的reasoning loop特性来优化图像处理。
Codex不同于标准LLM的地方在于它具备任务执行中的自检机制——在处理过程中会验证中间结果,发现问题后会主动回溯并调整参数,直到达到预期质量。这个特性用在图像拆分上,理论上能实现:
- 更细粒度的图层划分(测试结果达到12层)
- 自动去除边缘污点和处理残影
- 文字、背景、图形元素的独立分层
- 可控的迭代修正过程
项目:bggg-creator-image2psd
功能定位
这是一个基于Codex reasoning loop的图像到PSD转换Skill,核心功能流程为:
- 接入AI生图输出(支持GPT-4V生成的图像)
- 自动拆分图像为独立图层(含文字、背景、图形元素识别)
- 移除白色底色并优化边缘
- 输出可在Photoshop中编辑的PSD文件
技术特征
- 底层技术栈:Python + psd-tools + Codex reasoning loop
- 处理能力:相比网页端ChatGPT(7层),可拆出12层左右的精细结构
- 质量控制:内置自检修正机制,自动处理边缘污点和图层混乱问题
- 适配场景:电商素材设计、活动海报、产品图编辑等需要后期调整的设计场景
实际效果对比
以一张厦门AI跨境电商大会海报为测试用例,对比ChatGPT网页端和Codex方案的处理结果:
| 维度 | ChatGPT网页端 | bggg-creator-image2psd |
|---|---|---|
| 图层数量 | 7层 | 12层 |
| 文字分层 | 与背景混合 | 独立成层 |
| 边缘处理 | 存在残影和污点 | 自动修正,无残影 |
| 图形元素 | 合并处理 | 独立分层 |
| 迭代机制 | 无 | 内置reasoning loop |
应用场景
- 设计协作工作流:AI快速生图 → 自动拆层 → 设计师精细编辑,减少重复手工操作
- 电商运营场景:批量生成商品海报素材,保留修改灵活性
- 营销素材生产:活动宣传图、产品图等需要频繁调整的内容
- 设计资产管理:保存分层结构便于后续复用和变体生成
部署与使用
项目已开源在GitHub:https://github.com/binggandata/bggg-skills/tree/main/bggg-creator-image2psd
使用流程:
- 将Skill集成到你的Codex环境中
- 输入AI生成的图像或本地图片
- 指定拆分需求(如需要的图层类型、底色处理等)
- 等待Codex完成自检迭代后获取PSD文件
- 在Photoshop中导入并进行进一步编辑
同一仓库还包含了之前开源的饕餮.skill等其他实用工具,持续更新中。
相似项目推荐
如果你关注AI设计工具生态,这些项目值得关注:
- Lovart:专注AI设计Agent,提供生成图编辑功能,但主要在网页端
- OpenAI Codex:本项目的技术基础,适合需要多步骤任务自检的场景
- psd-tools(开源库):Python PSD文件处理的底层库,这个项目的核心依赖
思考与局限
需要坦诚地说,当前方案还存在改进空间:
- 对极复杂设计(多重纹理、渐变、特效)的处理仍有优化余地
- Codex的reasoning loop会增加处理时间,适合非实时场景
- 某些特殊设计元素的识别准确度需要进一步调优
项目地址已在文末,欢迎提交Issue反馈实际使用中遇到的问题和优化建议。
总结
这个项目的核心价值在于弥合了"AI生图能力强但编辑成本高"的现实矛盾。通过引入Codex的reasoning loop机制,我们将传统网页端的单次处理模式升级为可迭代自检的工作流。在实际体验中,从生图到可编辑PSD的完整链路已能支撑设计工作的实际需求。
从产品经理的角度看,这类工具的价值不在于替代设计师,而在于降低从创意到成品的中间成本。AI的强项是快速输出初稿,人的强项是精细打磨,两者结合才能提升设计生产效率。如果你的团队正在探索AI辅助设计的工作流,这个方案值得一试。