当前位置：首页 » AI产品百科

Qwen3.6-27B 实测报告：本地模型跑出 GPT-4 水准，27B Dense 架构超越 397B MoE

1小时前 AI产品百科 16 0

阿里发布了 Qwen3.6-27B，27B 参数的 Dense 架构模型（不是 MoE），原生支持 262K 上下文，Apache-2.0 开源。

苏米注：Dense 架构相比 MoE 部署更简单，不需要考虑路由问题，推理更稳定。这是本地部署的重要优势。

官方数据：27B 超越 397B？

官方给出的数据很夸张：SWE-bench Verified 77.2，超过了 Qwen3.5-397B-A17B 这个 397B 参数的 MoE 旗舰。

也就是说，参数量只有对方的 1/15，但编码能力反而更好。这种模型跑分需要实际测试验证。

测试环境

实测设备：RTX 4090（24GB 显存），Windows 系统，LM Studio 加载模型。使用 Q4_K_M 量化版，体积约 16GB 出头。

测试一：视觉理解

加载模型后，第一个测试是丢一张截图进去问"描述图片中的人物"。

同时开启 GPU 监控，模型推理期间 SM 利用率飙到 96-97%，显存带宽 94-95%，4090 被完全压满。

响应内容准确识别出图片中的人物，描述了外貌、穿着、手势和背景。

Qwen3.6-27B 不只是文本模型，视觉推理能力很强，描述非常详细，详细到可以直接在 GPT Image 上还原。

测试二：上下文长度

模型默认加载的 context_length 是 4096，大概 3000 汉字左右。Claude Code 这类 Agentic 工具随便一个任务就能超过，所以需要调大。

LM Studio 提供了热改配置接口，无需重启：

# 新建实例，设置 64K context
curl -X POST http://192.168.1.238:1234/api/v1/models/load \
  -H "Content-Type: application/json" \
  -d '{"model": "qwen/qwen3.6-27b", "context_length": 65536}'

# 卸载旧实例
curl -X POST http://192.168.1.238:1234/api/v1/models/unload \
  -H "Content-Type: application/json" \
  -d '{"instance_id": "qwen/qwen3.6-27b"}'

先建新的，确认能跑，再卸旧的，这样服务不会中断。

显存占用测试：

context_length	显存已用	剩余
32768 (32K)	20750 MB	3399 MB
65536 (64K)	22793 MB	1356 MB
131072 (128K)	24043 MB	106 MB
262144 (256K)	23968 MB	181 MB

全部成功加载，一个都没 OOM。但 128K 和 256K 剩余显存太少，KV cache 动态增长会吃掉更多显存，OOM 是早晚的事。

苏米注：64K 是最佳平衡点，留出 1.3GB 余量，推理过程完全够用。如果不需要超长上下文，32K 也完全够用，还能多留 3GB。

测试三：五道智能题

跑了五道题：逻辑推理、数学、Boyer-Moore 代码、塞翁失马中文理解、4 只猫常识推理。

逻辑推理（洗车问题）

上手题是经典的洗车问题，模型答对了。

对比同期的闭源模型 Opus4.7：

数学题

17×23+144÷12=403，步骤清晰，答案正确。

代码题：Boyer-Moore 算法

实现完整，包含复杂度分析、边界情况说明，还用了形象的比喻："把数组想象成不同阵营的士兵，每次让两个不同阵营的士兵同归于尽，多数阵营人数过半，最后活下来的必定是多数阵营的代表。"

这种解释质量，在本地模型里算比较顶尖的。

中文理解：塞翁失马

解释分了四层：典故出处、哲学逻辑、现代案例、现实启示。

现代案例选的是传统媒体编辑被裁后转型 AI 工具，逻辑自洽，类比精准。

常识推理：4 只猫

脑筋急转弯题目，模型答对并正确解释了"每只猫面前有 3 只猫"是空间描述而不是额外增加数量。

总结：代码和中文理解是明显强项。

Opus4.7 最后给出的测评评价：

实用技巧：/no_think 开关

thinking 模式消耗 token 很快。简单任务不需要推理过程时，可以在消息末尾加 /no_think 关闭 thinking 模式。

实测对比：

开启 thinking：深度推理，慢，token 消耗多
关闭 thinking：快速回答，省 token

# 开启 thinking（深度推理）
你的复杂推理问题

# 关闭 thinking（快速回答）
你的简单问题 /no_think

这个开关很实用：工具调用、结构化输出、代码补全等场景不需要 thinking，复杂推理、分析题目可以开启。

注意：chat_template_kwargs: {"thinking": false} 这个 API 参数在 LM Studio 里没有生效，加在 system prompt 里也没用。真正有效的只有 /no_think 加在用户消息末尾。

接入 Claude Code

Qwen3.6-27B 支持 Anthropic-compatible 端点，可以直接让 Claude Code 调用。

LM Studio 0.4.1 之后原生支持 /v1/messages 端点，不需要额外代理。

配置步骤：

LM Studio 启动 Server（默认 1234 端口）
加载 Qwen3.6-27B，context 设 64K 以上

设置环境变量：

export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio

启动 Claude Code：
```
claude --model qwen/qwen3.6-27b
```

这样就得到了一个完全跑在本地的 Claude Code，没有速率限制、没有 API 费用、没有网络依赖。

唯一的代价是速度：4090 跑 Q4_K_M 量化的 27B，大概 25-40 token/s，不快但能用。

如果 LM Studio 原生兼容性偶尔出问题，可以加一层 LiteLLM 代理桥接：

pip install litellm
litellm --model lm_studio/qwen/qwen3.6-27b --port 4000
export ANTHROPIC_BASE_URL=http://localhost:4000

整体评价

Qwen3.6-27B 是目前测试过的本地模型中，综合能力最接近 GPT-4 的一个。

中文理解：出乎意料地好
代码质量：扎实，解释清晰
常识推理：没有翻车
视觉理解：描述详细
架构优势：Dense 架构，部署简单，推理稳定

27B 参数在 4090 上能跑 64K context，还能留出 1.3GB 的安全余量。这个组合是目前单卡本地推理的相当不错的配置。

对于想在本地跑 Claude Code 后端、或者需要一个不依赖云端的代码助手的人来说，值得一试。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：Qwen3.6-27B 实测报告：本地模型跑出 GPT-4 水准，27B Dense 架构超越 397B MoE

请登录后发表评论