10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI产品百科

Qwen3.6-27B 实测报告:本地模型跑出 GPT-4 水准,27B Dense 架构超越 397B MoE

1小时前 AI产品百科 16 0

阿里发布了 Qwen3.6-27B,27B 参数的 Dense 架构模型(不是 MoE),原生支持 262K 上下文,Apache-2.0 开源。

Qwen3.6-27B 发布

苏米注:Dense 架构相比 MoE 部署更简单,不需要考虑路由问题,推理更稳定。这是本地部署的重要优势。

官方数据:27B 超越 397B?

官方给出的数据很夸张:SWE-bench Verified 77.2,超过了 Qwen3.5-397B-A17B 这个 397B 参数的 MoE 旗舰。

SWE-bench 性能对比

也就是说,参数量只有对方的 1/15,但编码能力反而更好。这种模型跑分需要实际测试验证。

测试环境

实测设备:RTX 4090(24GB 显存),Windows 系统,LM Studio 加载模型。使用 Q4_K_M 量化版,体积约 16GB 出头。

RTX 4090 测试环境

测试一:视觉理解

加载模型后,第一个测试是丢一张截图进去问"描述图片中的人物"。

视觉理解测试截图

同时开启 GPU 监控,模型推理期间 SM 利用率飙到 96-97%,显存带宽 94-95%,4090 被完全压满。

响应内容准确识别出图片中的人物,描述了外貌、穿着、手势和背景。

视觉理解响应结果

Qwen3.6-27B 不只是文本模型,视觉推理能力很强,描述非常详细,详细到可以直接在 GPT Image 上还原。

视觉理解能力展示

测试二:上下文长度

模型默认加载的 context_length 是 4096,大概 3000 汉字左右。Claude Code 这类 Agentic 工具随便一个任务就能超过,所以需要调大。

LM Studio 提供了热改配置接口,无需重启:

# 新建实例,设置 64K context
curl -X POST http://192.168.1.238:1234/api/v1/models/load \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen/qwen3.6-27b", "context_length": 65536}'

# 卸载旧实例
curl -X POST http://192.168.1.238:1234/api/v1/models/unload \
  -H "Content-Type: application/json" \
  -d '{"instance_id": "qwen/qwen3.6-27b"}'

先建新的,确认能跑,再卸旧的,这样服务不会中断。

显存占用测试:

context_length 显存已用 剩余
32768 (32K) 20750 MB 3399 MB
65536 (64K) 22793 MB 1356 MB
131072 (128K) 24043 MB 106 MB
262144 (256K) 23968 MB 181 MB

全部成功加载,一个都没 OOM。但 128K 和 256K 剩余显存太少,KV cache 动态增长会吃掉更多显存,OOM 是早晚的事。

苏米注:64K 是最佳平衡点,留出 1.3GB 余量,推理过程完全够用。如果不需要超长上下文,32K 也完全够用,还能多留 3GB。

测试三:五道智能题

跑了五道题:逻辑推理、数学、Boyer-Moore 代码、塞翁失马中文理解、4 只猫常识推理。

逻辑推理(洗车问题)

上手题是经典的洗车问题,模型答对了。

逻辑推理题

对比同期的闭源模型 Opus4.7:

Opus4.7 对比

数学题

17×23+144÷12=403,步骤清晰,答案正确。

数学题解答

代码题:Boyer-Moore 算法

实现完整,包含复杂度分析、边界情况说明,还用了形象的比喻:"把数组想象成不同阵营的士兵,每次让两个不同阵营的士兵同归于尽,多数阵营人数过半,最后活下来的必定是多数阵营的代表。"

代码实现

这种解释质量,在本地模型里算比较顶尖的。

中文理解:塞翁失马

解释分了四层:典故出处、哲学逻辑、现代案例、现实启示。

中文理解

现代案例选的是传统媒体编辑被裁后转型 AI 工具,逻辑自洽,类比精准。

常识推理:4 只猫

脑筋急转弯题目,模型答对并正确解释了"每只猫面前有 3 只猫"是空间描述而不是额外增加数量。

常识推理题

总结:代码和中文理解是明显强项。

Opus4.7 最后给出的测评评价:

测评总结

实用技巧:/no_think 开关

thinking 模式消耗 token 很快。简单任务不需要推理过程时,可以在消息末尾加 /no_think 关闭 thinking 模式。

实测对比:

  • 开启 thinking:深度推理,慢,token 消耗多
  • 关闭 thinking:快速回答,省 token
# 开启 thinking(深度推理)
你的复杂推理问题

# 关闭 thinking(快速回答)
你的简单问题 /no_think

这个开关很实用:工具调用、结构化输出、代码补全等场景不需要 thinking,复杂推理、分析题目可以开启。

注意:chat_template_kwargs: {"thinking": false} 这个 API 参数在 LM Studio 里没有生效,加在 system prompt 里也没用。真正有效的只有 /no_think 加在用户消息末尾。

接入 Claude Code

Qwen3.6-27B 支持 Anthropic-compatible 端点,可以直接让 Claude Code 调用。

Claude Code 接入

LM Studio 0.4.1 之后原生支持 /v1/messages 端点,不需要额外代理。

配置步骤:

  1. LM Studio 启动 Server(默认 1234 端口)
  2. 加载 Qwen3.6-27B,context 设 64K 以上
  3. 设置环境变量:
    export ANTHROPIC_BASE_URL=http://localhost:1234
    export ANTHROPIC_AUTH_TOKEN=lmstudio
  4. 启动 Claude Code:
    claude --model qwen/qwen3.6-27b

这样就得到了一个完全跑在本地的 Claude Code,没有速率限制、没有 API 费用、没有网络依赖。

唯一的代价是速度:4090 跑 Q4_K_M 量化的 27B,大概 25-40 token/s,不快但能用。

如果 LM Studio 原生兼容性偶尔出问题,可以加一层 LiteLLM 代理桥接:

pip install litellm
litellm --model lm_studio/qwen/qwen3.6-27b --port 4000
export ANTHROPIC_BASE_URL=http://localhost:4000

整体评价

Qwen3.6-27B 是目前测试过的本地模型中,综合能力最接近 GPT-4 的一个。

  • 中文理解:出乎意料地好
  • 代码质量:扎实,解释清晰
  • 常识推理:没有翻车
  • 视觉理解:描述详细
  • 架构优势:Dense 架构,部署简单,推理稳定

27B 参数在 4090 上能跑 64K context,还能留出 1.3GB 的安全余量。这个组合是目前单卡本地推理的相当不错的配置。

对于想在本地跑 Claude Code 后端、或者需要一个不依赖云端的代码助手的人来说,值得一试。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Qwen3.6-27B 实测报告:本地模型跑出 GPT-4 水准,27B Dense 架构超越 397B MoE
#Qwen3.6-27B #通义千问 #本地大模型 #RTX 4090 #Claude Code 
收藏 1
OpenAI Workspace Agents 发布:GPTs 已死,云端龙虾限时免费至 5 月 6 日
这是最后一篇
推荐阅读
  • Krea.ai:一个强大的多功能 AI内容创作平台,Flux 系列秒出图
  • 小蛙AI: 智谱AI出品AI写作文章生成器工具
  • Dex:AI 职业发展助手,帮助你找到更适合的职业机会
  • GPT-SoVITS:一个强大的零样本语音转换和文本到语音WebUI
  • StudyCorgi:免费论文数据库的 AI 论文生成、论文查重、AI率检测一站式平台
评论 (0)
请登录后发表评论
分类精选
Picarta:可以查找图片拍摄地点的AI识图软件,使用AI搜索照片拍摄的精确位置
16331 1年前
GPTGirlfriend:AI虚拟女友聊天平台,不受限制的成人角色扮演,AI女友进行成熟的对话
16250 1年前
BeArt:一款免费且无水印的的在线AI换脸网站,适用于照片、视频和GIF中实现精准换脸
14263 1年前
灵光:蚂蚁集团推出的全模态AI助手App,30秒做应用、实时写图文
13194 5月前
Noiz AI:AI语音克隆工具,一款TTS和视频配音神器
12787 1年前
Unscreen:在线视频和GIF背景抠除工具,不用绿幕轻松完成视频抠像
12393 1年前
NiceVoice:又一款免费AI声音克隆,3步克隆你的声音
11643 8月前
嘎嘎降AI:AIGCleaner论文降重工具网站,专门降低文章AI率、查重率的工具
11462 1年前
抖音即创AI: 一站式智能AI创作管理平台
10909 1年前
Reecho 睿声:免费AI语音克隆与超拟真语音合成平台,用户只需提供一小段声音样本,完成声音的克隆
10797 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Qwen3.6-27B 实测报告:本地模型跑出 GPT-4 水准,27B Dense 架构超越 397B MoE
2 MonkeyCode :在线 AI 编程平台实测,手搓字体预览器和安卓提词器
3 AI操作系统三国杀:Hermes vs OpenClaw vs WorkBuddy 全方位对比评测
4 Hermes Agent vs WorkBuddy:AI 操作系统与办公助手的定位差异详解
5 华为云 OfficeClaw 深度实测:Harness Engineering 新范式下的多 Agent 办公助手
6 阿里 Meoo 上线:AI 零门槛开发网站,集成四大模型,一键部署阿里云
7 Seedance 2.0 真人短剧 Agent 实战:商汤 Seko 全能视频模式完整使用指南
8 waoowaoo:AI短剧/漫画视频创作工具,文本一键生成分镜、角色和场景
9 魔因漫创Moyin Creat:开源、生产级的AI影视创作工具,从剧本到成片全流程批量生成
10 Gaia:AI建筑设计工具,一键将草图或照片生成高逼真渲染,快速迭代设计
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联