当前位置：首页 » AI最新动态

GLM-4.6V重磅开源！9B与106B两档视觉模型的本地与云端实测

4月前 AI最新动态 1611 0

刚刚，智谱开源了他们最强的视觉模型：GLM-4.6V

让我兴奋的是，这次一口气开源了两个尺寸：一个是106B的GLM-4.6V，另一个是9B的GLM-4.6V-Flash（消费级显卡就能本地部署）。

在同参数量级下，多模态交互、逻辑推理、长上下文能力都取得了SOTA（State Of The Art，目前最强）。

使用入口：可在 z.ai 使用，也支持以MCP形式接入Agent；可在Claude Code中作为“有视觉能力的基模”或作为MCP-Server提供视觉感知。

开源地址：

GitHub：https://github.com/zai-org/GLM-V

Hugging Face：https://huggingface.co/collections/zai-org/glm-46v

魔搭社区：https://modelscope.cn/collections/GLM-46V-37fabc27818446

真实场景落地尝试

1）本地跑9B：隐私与边缘部署的可行选项

我在一台带消费级显卡的办公电脑上跑了GLM-4.6V-Flash（9B）。

重点体验了几类场景：

群像定位：给它一张我的自拍和一张几十人的大合照，让模型在合照里标出我具体位置。这类任务之前在其他模型（包含Gemini 3）上经常失败或偏差大，这次成功率明显提升。
图像检索（Image Research）：我写公众号需要配图，过去靠搜索常常不准。用z.ai的Image Research功能让GLM-4.6V搜“GEO（Generative Engine Optimization）”相关图片，返回结果更贴近主题，质量也更能直接用。
多图理解与结构化输出：把飞书多维表格API的几张截图丢给它，让模型组装成一段可直接调用的请求示例。对“有信息但分散在多张图”的情况，模型能把碎片信息整合得比较顺滑。
目标与属性识别：把紧贴我车头停车的红车照片给它，车辆类型、颜色等识别准确，品牌识别有偏差。整体看，常见属性较稳，品牌这类细分识别仍需场景化优化。
票据文本识别：把维修单据给它做OCR并结构化输出，在我逐字核对下准确率接近满分（我的样本场景下约99.9%）。
情绪/剧情走向分析：给“渣渣辉”的片段，让模型描述角色情绪变化与镜头细节。文本分析与细节抓取较到位，适合做素材标注或视频摘要。

这一档（9B）的意义在于：不依赖昂贵GPU，就能把“看图—理解—整理”的任务落到本地，对涉及隐私的数据尤其友好。

2）企业私有化的取舍：106B的平衡点

和动辄数百B的闭源巨型模型相比，106B在部署成本上更有可行性。我和几家制造业的朋友聊过，他们更关注“在现有机房条件下是否能上”而不是“参数规模越大越好”。

一个我在现场看到的真实案例：在流水线末端用摄像头与传感器采集纸箱图像，模型判断是否破损、封带是否完整。之前用的小模型可用，但误判较多，需要人工复核。对这类边缘场景，106B可以在企业内网里作为核心视觉服务，提升准确度的同时把数据掌握在自己手里。

3）云端与Agent：Claude Code + MCP 的组合打法

如果不介意上云，直接调智谱API，在速度和稳定性上更省心。我做了两次组合式测试：

复杂网页比价任务：让Claude Code做调度（工具调用、流程控制），GLM-4.6V负责视觉理解与信息抽取，通过playwright MCP跨淘宝、京东、唯品会做同款比价并加购物车。实际跑通，唯一漏的是“筛选价格区间”的步骤。
“分工明确”的站点复刻：用GLM-4.6V分析视频中的网站结构与动效，再让GLM-4.6生成前端代码。最后效果基本还原了卡片动效与主要交互。对复杂动效的精细还原仍有难度，但这套“视觉感知 + 代码生成”的分工模式是有效的。

Claude Code集成配置（示例）：

{
  "env": {
    "ANTHROPIC_AUTH_TOKEN": "你的智谱开放平台apikey",
    "ANTHROPIC_BASE_URL": "https://open.bigmodel.cn/api/anthropic",
    "API_TIMEOUT_MS": "3000000"
  },
  "model": "glm-4.6v"
}

如果让4.6V做视觉MCP-Server，而把代码生成换回GLM-4.6，整体分工会更清晰：

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=你的智谱apikey -- npx -y "@z_ai/mcp-server"

选型建议

维度	GLM-4.6V-Flash（9B）	GLM-4.6V（106B）	云API（z.ai/开放平台）
功能范围	多模态输入/输出、基础视觉理解、128k上下文、工具调用	更强的视觉理解与推理、128k上下文、工具调用	同能力，附带更好的服务稳定性与扩展工具
技术特征	适合本地量化与消费级显卡运行	需要高显存/多卡部署，更适合机房环境	免维护，随时按需扩容
使用门槛	低-中：有一定本地部署经验即可	中-高：需算力与工程化能力	低：直接调用API或平台
适合人群	个人开发者、小团队、边缘设备场景、隐私敏感任务	有内网与数据合规要求的企业、需要更高精度与稳定性	对交付速度和稳定性要求高的团队、Agent应用落地
典型使用	本地素材标注、票据识别、基础质检、图像检索	生产质检、业务系统视觉服务、私有化Agent“眼睛”	跨平台自动化、复杂工具链、规模化服务

场景建议

本地9B：优先选择合适的量化与推理引擎，先跑通你的核心样本（比如业务常见票据与生产图片），再逐步扩展能力。
Agent场景：用Claude Code做流程调度，GLM-4.6V做视觉与信息抽取，GLM-4.6做代码生成，是目前较稳的一种分工。
内容生产：结合Image Research做图像检索，和你现有的创意生图工具并行使用，用人来做最后筛选与定稿。

小结

这次GLM-4.6V的开源，把“本地可用的9B”与“企业可私有化的106B”都摆在了台面上。

我的感受是：相比一味追求模型规模，更关键的是把能力和场景对上。

流水线质检、票据识别、素材检索、Agent的“眼睛”这些具体任务，都能在可控的成本下跑起来。

另外补充一句：GLM-4.6与GLM-4.6V目前都在我的Coding Plan可用范围内。

后续我会继续把更多行业场景和模型能力对接起来，尽量用真实任务的测评数据来更新这类分享。

如果你正在做行业内的AI落地，欢迎一起交流你在本地与云端之间的选择逻辑。

最终目标不是“更强的模型”，而是“把业务问题解决掉”。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：GLM-4.6V重磅开源！9B与106B两档视觉模型的本地与云端实测

#GLM-4.6V #开源

请登录后发表评论