10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI开源项目

从AI生图到可编辑PSD,用Codex实现的GPT-image-2图层PSD的开源方案Skill

1小时前 AI开源项目 12 0

最近在体验AI生图工具时,我发现了一个有趣的现象:GPT-4V在图像生成上表现出色,但生成的往往是合并的扁平图像,后续编辑仍需人工介入Photoshop逐层调整。这个痛点在设计协作中尤为明显。经过一段时间的探索和开发,我将一套从AI生图到可编辑PSD的完整工作流打包成了开源Skill,今天想分享这个过程中的技术思路和实际效果。

核心问题与现有方案

目前市面上的AI设计Agent(如Lovart等)虽然提供了对生成图片的编辑功能,但大多基于网页端的单次处理模式。我在使用ChatGPT的Photoshop插件时发现,它可以通过连接Photoshop应用,将合并图像拆分成多个图层并输出PSD文件。但这个方案存在明显局限:

  • 图层拆分精度有限:网页端通常拆出7层左右,且容易产生边缘污点和图层混乱
  • 缺乏迭代机制:一次生成即结束,无法对中间结果进行自检和修正
  • 复杂设计支持不足:对层次复杂的设计图处理效果一般

技术架构与解决方案

通过分析ChatGPT的处理流程,我发现其底层调用了Python的psd-tools包。这意味着图层拆分的精细度本质上取决于Python脚本的逻辑,而非ChatGPT本身的能力限制。由此衍生出核心思路:利用Codex的reasoning loop特性来优化图像处理。

Codex不同于标准LLM的地方在于它具备任务执行中的自检机制——在处理过程中会验证中间结果,发现问题后会主动回溯并调整参数,直到达到预期质量。这个特性用在图像拆分上,理论上能实现:

  • 更细粒度的图层划分(测试结果达到12层)
  • 自动去除边缘污点和处理残影
  • 文字、背景、图形元素的独立分层
  • 可控的迭代修正过程

项目:bggg-creator-image2psd

功能定位

这是一个基于Codex reasoning loop的图像到PSD转换Skill,核心功能流程为:

  1. 接入AI生图输出(支持GPT-4V生成的图像)
  2. 自动拆分图像为独立图层(含文字、背景、图形元素识别)
  3. 移除白色底色并优化边缘
  4. 输出可在Photoshop中编辑的PSD文件

技术特征

  • 底层技术栈:Python + psd-tools + Codex reasoning loop
  • 处理能力:相比网页端ChatGPT(7层),可拆出12层左右的精细结构
  • 质量控制:内置自检修正机制,自动处理边缘污点和图层混乱问题
  • 适配场景:电商素材设计、活动海报、产品图编辑等需要后期调整的设计场景

实际效果对比

以一张厦门AI跨境电商大会海报为测试用例,对比ChatGPT网页端和Codex方案的处理结果:

维度 ChatGPT网页端 bggg-creator-image2psd
图层数量 7层 12层
文字分层 与背景混合 独立成层
边缘处理 存在残影和污点 自动修正,无残影
图形元素 合并处理 独立分层
迭代机制 无 内置reasoning loop

应用场景

  • 设计协作工作流:AI快速生图 → 自动拆层 → 设计师精细编辑,减少重复手工操作
  • 电商运营场景:批量生成商品海报素材,保留修改灵活性
  • 营销素材生产:活动宣传图、产品图等需要频繁调整的内容
  • 设计资产管理:保存分层结构便于后续复用和变体生成

部署与使用

项目已开源在GitHub:https://github.com/binggandata/bggg-skills/tree/main/bggg-creator-image2psd

使用流程:

  1. 将Skill集成到你的Codex环境中
  2. 输入AI生成的图像或本地图片
  3. 指定拆分需求(如需要的图层类型、底色处理等)
  4. 等待Codex完成自检迭代后获取PSD文件
  5. 在Photoshop中导入并进行进一步编辑

同一仓库还包含了之前开源的饕餮.skill等其他实用工具,持续更新中。

相似项目推荐

如果你关注AI设计工具生态,这些项目值得关注:

  • Lovart:专注AI设计Agent,提供生成图编辑功能,但主要在网页端
  • OpenAI Codex:本项目的技术基础,适合需要多步骤任务自检的场景
  • psd-tools(开源库):Python PSD文件处理的底层库,这个项目的核心依赖

思考与局限

需要坦诚地说,当前方案还存在改进空间:

  • 对极复杂设计(多重纹理、渐变、特效)的处理仍有优化余地
  • Codex的reasoning loop会增加处理时间,适合非实时场景
  • 某些特殊设计元素的识别准确度需要进一步调优

项目地址已在文末,欢迎提交Issue反馈实际使用中遇到的问题和优化建议。

总结

这个项目的核心价值在于弥合了"AI生图能力强但编辑成本高"的现实矛盾。通过引入Codex的reasoning loop机制,我们将传统网页端的单次处理模式升级为可迭代自检的工作流。在实际体验中,从生图到可编辑PSD的完整链路已能支撑设计工作的实际需求。

从产品经理的角度看,这类工具的价值不在于替代设计师,而在于降低从创意到成品的中间成本。AI的强项是快速输出初稿,人的强项是精细打磨,两者结合才能提升设计生产效率。如果你的团队正在探索AI辅助设计的工作流,这个方案值得一试。

开源地址:https://github.com/binggandata/bggg-skills

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:从AI生图到可编辑PSD,用Codex实现的GPT-image-2图层PSD的开源方案Skill
#PSD #GPT-image-2 #Skill 
收藏 1
DeepSeek版Claude Code:开源版 DeepSeek TUI 全操作指南
卖 API 不够用了:Anthropic 和 OpenAI 同日设立合资公司,把工程师直接派进企业
推荐阅读
  • MemPalace 开源项目详解:本地 AI 记忆系统,96.6% 召回率业界领先
  • OmniBox:开源AI知识管理系统,让你的收藏夹不再吃灰!
  • MiniMax 开源 Skills 项目:MiniMax-AI 团队把压箱底的开发技能包都拿出来了,为 AI 编程助手配置结构化工作流
  • 5个Claude Skill覆盖你的可视化全场景,用文字直接生成图表
  • ClipSketch AI:将视频瞬间转化为手绘故事,并自动撰写适配社交媒体的爆款文案
评论 (0)
请登录后发表评论
分类精选
OpenSpec:比 Cursor Plan 更聪明?试试这款让 AI 编码更靠谱的规范驱动工具
9032 6月前
WeKnora:终于等到了腾讯ima的开源知识库框架,用 API 轻松打造本地智能文档检索
8230 8月前
Antigravity-Manager:这个开源神器让你白嫖ClaudeOpus 4.5,Gemini 3!还能接Claude Code等任意平台
6310 4月前
awesome-openclaw-skills:700+ Skills 一条命令装配完成,如何让本地 AI Agent 真正落地可用
5891 3月前
AIRI:你的开源AI女友,让你随时拥有属于自己的 AI VTuber
5669 7月前
CompressO:开源免费的视频压缩神器,让你的硬盘瞬间轻松 10 倍
5488 7月前
iFlow CLI:让命令行终端不止于编程的AI效率开源神器
5370 8月前
就要创作:从提示词到创作团队,开源 AI 网文写作平台
5326 6月前
Composio:让AI Agent自动完成工作任务,能让AI一键操控你的所有软件
5270 6月前
SpecKit:从想法到代码只需5步?这个开源框架把规范驱动开发变成了现实
5147 6月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 从AI生图到可编辑PSD,用Codex实现的GPT-image-2图层PSD的开源方案Skill
2 DeepSeek版Claude Code:开源版 DeepSeek TUI 全操作指南
3 Star OfficeCLI:零依赖 AI 全包 Word Excel PowerPoint
4 TrendRadar:支持35平台热点监控、7 种推送渠道的舆情系统
5 Open Design:Claude Design 的真正开源替代品
6 Beads 开源项目详解:给 AI Agent 装上「项目经理大脑」,22.4K Star 的分布式任务追踪系统
7 oss-skill 开源项目:蒸馏开源软件作者或项目的工程直觉,打造有判断力的 AI Agent
8 cc-connect 开源项目:把 Codex 接到微信,手机远程操控 AI Agent
9 MiniCPM-o 4.5 技术报告解读:9B 全双工全模态模型,25 万下载量的端侧 AI 实现
10 ESP-Claw 开源项目详解:几美元芯片上跑 AI Agent,聊天即造物
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联