10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座

2小时前 AI最新动态 25 0

阿里巴巴正式发布 Qwen3.7-Plus——将视觉与语言统一为一体化智能体基座的多模态模型。

在 Qwen3.7 强大文本能力的基础上,Qwen3.7-Plus 全面升级了视觉-语言能力,同时保持了在编码、工具使用和生产力工作流方面的完整智能体能力。

在全球权威视觉模型榜单 Vision Arena 中,凭借 Qwen3.7-Plus,阿里跻身全球前五、中国第一。

五大核心能力

Qwen3.7-Plus 的核心特色在于其作为多模态交互混合智能体的能力。它能够感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码、端到端导航移动应用,以及基于网络知识回答视觉问题。

  • Multimodal Agent:统一处理图像、视频、屏幕、网页和文本输入,在 GUI / CLI / 工具环境中完成任务
  • Visual Agent:结合视觉理解、代码解释器和搜索增强,解决视觉谜题、真实世界问答和复杂推理任务
  • Visual Coding:从图像或视频生成 SVG、网页和交互式前端,实现视觉参考到代码的端到端转化
  • GUI Agent:理解移动端和桌面端界面,进行控件定位、任务规划和多步操作
  • Real-world Perception & Reasoning:覆盖真实场景、文档图表、OCR、视频和驾驶场景理解

模型表现

图片 1

图片 2

纯文本能力

Qwen3.7-Plus 在纯文本能力上表现出色,整体接近 Max 级别模型。

图片 3

  • 编码 Agent:在 Terminal Bench 2.0、SWE-bench 系列和 SciCode 上表现强劲,能够有效处理真实软件工程和科学编程任务
  • 通用 Agent:在 MCP-Mark、Deep-Planning 和 Kernel Bench L3 上展现了稳健的工具使用与规划能力
  • 推理能力:在 GPQA Diamond、HMMT 和 IMOAnswerBench 上表现优异,在高难度 STEM 基准测试中位于 Plus 级别模型前列
  • 指令遵循与多语言:在 IFBench、WMT24++ 和 PolyMATH 上保持了稳定的高质量表现

多模态能力

Qwen3.7-Plus 的多模态能力提升,不仅是单点视觉理解能力的优化,而是围绕多模态智能体所需的关键能力系统性增强。

图片 4

  • Multimodal Reasoning:在 BabyVision、MathVision、HiPhO、ERQA 和 VisFactor 等高难度视觉推理基准上取得强表现,尤其在 BabyVision 上相比 Qwen3.6-Plus 有显著提升
  • Visual Agent & Coding:在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上显著提升,不仅能够识别屏幕内容,还能够定位关键 UI 元素并完成多步交互操作
  • Multimodal Search & Knowledge QA:在 SimpleVQA、WorldVQA、MMSearchPlus 等任务上明显增强,可以将视觉输入与外部知识检索结合起来
  • General Visual Understanding:在 RealWorldQA、CountQA、OmniDocBench、OCR-Bench-V2 等任务上保持强表现
  • 视频与驾驶场景:在 VideoMMMU、MLVU、TVBench 等视频任务上能够处理短视频和长视频中的事件、动作、时序和语义关系

案例展示

多模态交互混合智能体

基于 Qwen3.7-Plus 构建的 Hybrid-Agent 智能体系统,将大模型的代码生成能力与 GUI 自动化执行深度融合。

APP 全链路开发:Agent 持续稳定运行 11+ 小时,全程自动完成了一款英语单词学习 APP 的完整研发闭环。累计生成代码超过 10,000+ 行,触发 Agent 调用超过 1,000+ 次,覆盖需求文档生成、代码自动编写、自动化安装部署、测试用例创建、GUI 自动化测试等全生命周期环节。

桌面端专业应用复刻:Agent 全程自主完成了 macOS 原生 Stocks(股市)应用的高保真复刻——自主交互原生应用并理解 UI 布局与功能细节,基于交互记录自动生成 SwiftUI 源码,接入 LongBridge 真实行情 API 获取实时市场数据,自动编译构建并启动复刻应用,最终自主执行 10 项功能验证测试全部通过。

视觉 Agent

Qwen3.7-Plus 可以作为强大的视觉 Agent,将视觉理解与工具使用相结合来解决复杂的视觉任务。通过代码解释器集成,它可以分析图像来找不同、补图块、解华容道、走迷宫、拼拼图——全程通过自主生成和执行代码完成。

结合搜索增强,它能够基于网络知识对真实世界的视觉问题进行多模态推理和回答,支持单图、多图和视频输入。

视觉编程

Qwen3.7-Plus 展现了强大的视觉到代码生成能力。它可以将图像、视频、UI 截图和设计参考转化为可执行代码。

图片 5

在图像/视频转 SVG 任务中,模型需要理解视觉内容中的几何结构、颜色、布局、层级关系和动态变化,并将这些视觉元素用代码形式精确表达。

在视觉驱动的网页设计中,Qwen3.7-Plus 可以基于视觉参考、视频素材或设计意图生成完整交互式网页,从"给一张参考图"到"生成一个可运行的网页原型"。

浏览器智能助手

基于 Qwen3.7-Plus 构建了浏览器智能助手(Qwen for Chrome 插件)。在该模式下,Qwen 能够感知当前网页内容、理解用户任务、规划操作步骤,并以 Browser Agent 的形式在真实浏览器环境中执行点击、输入、跳转、配置和验证等操作。

面对非科班用户"采购一台最便宜 ECS 服务器"的需求,Agent 能够直接进入云控制台,完成实例规格比价、低成本选型、镜像与存储配置、安全组设置、订单确认等完整操作。

相关链接

  • 官方技术博客:qwen.ai/blog
  • 阿里云百炼:bailian.console.aliyun.com
  • Qwen Studio:chat.qwen.ai

总结:Qwen3.7-Plus 是目前最强的多模态智能体模型之一,将视觉理解与语言推理统一为一体化的智能体基座。它作为多模态交互混合智能体运行——感知真实世界场景、操作图形界面、基于视觉参考编写代码,并在 GUI 与 CLI 环境中端到端完成任务。对于需要多模态能力的开发者和企业来说,这是一个值得重点关注的模型。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座
#Qwen3.7-Plus #多模态 #AI新闻 #视觉理解 #混合智能体 
收藏 1
手把手教安装使用 Codex 入门指南,App、插件、CLI 三种方式完整教程
这是最后一篇
推荐阅读
  • Qoder:又一款全新AI IDE上线,免费(我做了一个Qwen AI 图像生成器)
  • 码上飞:只动嘴,App就能做出来?我用「码上飞」5分钟开发了一个AI应用
  • Claude Desktop 新增定时任务:本地版 Claude Code,正在把 OpenClaw 的活变得更简单
  • KAT-Coder-Pro V2发布:Claude Code + KAT-Coder-Pro V2实测新一代代码助手在前端生成与审美上显著进化
  • 突发!Anthropic收购 Bun!Claude Code 半年营收破10 亿美金
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
30530 10月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
27631 1年前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
19070 1年前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
19053 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
15910 1年前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
15561 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
15153 11月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
14596 1年前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
14094 1年前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
12375 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Qwen3.7-Plus正式发布:多模态混合智能体,视觉与语言统一的新基座
2 Holo3.1开源Computer Use模型发布:35B版性能超越Qwen3.5、Claude Sonnet 4.6
3 Qwen3.7-Plus正式发布:多模态冲进Vision Arena全球前五
4 Hermes Desktop 正式发布:Hermes Agent 变身桌面端 Codex 竞争者
5 OpenAI Codex三大重磅更新:角色插件、Sites 网站生成、精准批注
6 Composer 2.5 上线 Grok CLI:SpaceX 算力加持,Cursor 编码模型正式接入
7 豆包即将收费:价格体系、服务分层与底层商业逻辑分析
8 华人团队主导AI推理平台Fireworks AI 估值暴涨27倍至150亿美元
9 Agnes AI 全模态 API 无限期免费:文本、图像、视频模型实测与接入指南
10 MiniMax M3 即将发布:MSA 稀疏注意力重构大模型效率
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联