#本地大模型

Qwen3.6-27B 实测报告:本地模型跑出 GPT-4 水准,27B Dense 架构超越 397B MoE
阿里发布了 Qwen3.6-27B,27B 参数的 Dense 架构模型(不是 MoE),原生支持 262K 上下文,Apache-2.0 开源。 苏米注:Dense 架构相比 MoE 部署更简单,不需要考虑路由问题,推理更稳定。这是本…
llmfit 开源工具:一键检测你的电脑能跑哪些本地大模型
今年以来,OpenClaw、Hermes 这些 Agent 工具接连爆火,但 Token 消耗快得吓人,只是对话几次、简单设置个任务,一天就烧掉几十块。于是越来越多人把目光转向了本地模型部署,既省钱又能离线使用。 苏米注:但真动手的时候,…
Mac Mini M4 部署 Qwen3.5 最佳方案:MLX、Ollama、DFlash 全面对比评测
苏米注:手持一台 Mac Mini M4 16GB,想跑本地大模型但不知道选哪个方案?这篇文章帮你选。我来详细对比 MLX、Ollama 和 DFlash 三种部署方案的优劣。 一、Mac Mini M4 16GB 能跑什么模型 先算一笔账…
MiniMax-M2.7 量化版本地部署指南:Unsloth 22 个版本选择 +3 种部署方式详解
苏米注:MiniMax-M2.7 量化版发布后,Unsloth 团队第一时间推出了 22 个 GGUF 量化版本,从 1-bit 到 8-bit 全覆盖。最值得关注的是 4-bit 动态量化版只需要 108GB,一台 128GB 内存的 M…
Gemma 4 端侧部署完整指南:手机/RK3588/笔记本硬件选型与部署步骤
Gemma 4 模型家族与端侧部署场景 Gemma 4 的开源将端侧 AI 推向工程化落地阶段。它提供四个变体,针对不同资源场景设计:E2B(最轻量)、E4B(平衡版)、26B A4B(MoE 架构)和 31B(最强性能)。 端侧部署的核心…
本地大模型部署实战:Ollama×魔搭社区从0到1搭建LLM私有环境
为什么选择本地化部署? 作为产品经理,我在过去一年里测试了20+个大模型部署方案。 今天分享的Ollama×魔搭社区组合,是我目前在企业级和个人项目中验证过的最优解。 我们的核心诉求很明确:在保证性能的前提下,最大化部署灵活性。…