本地大模型 - 苏米客

这两年开源模型从 Llama 到 Qwen，再到 Gemma，能力一点点逼近闭源模型。于是不少人开始动心思，想要在自己电脑上本地部署模型，试图解决高昂的 Token 费用。但在 HuggingFace 上有上百多万个开源模型，参数量从 1…

355

1月前

AI编程开发

阿里发布了 Qwen3.6-27B，27B 参数的 Dense 架构模型（不是 MoE），原生支持 262K 上下文，Apache-2.0 开源。苏米注：Dense 架构相比 MoE 部署更简单，不需要考虑路由问题，推理更稳定。这是本…

4576

3月前

AI产品百科

今年以来，OpenClaw、Hermes 这些 Agent 工具接连爆火，但 Token 消耗快得吓人，只是对话几次、简单设置个任务，一天就烧掉几十块。于是越来越多人把目光转向了本地模型部署，既省钱又能离线使用。苏米注：但真动手的时候，…

945

3月前

AI开源项目

苏米注：手持一台 Mac Mini M4 16GB，想跑本地大模型但不知道选哪个方案？这篇文章帮你选。我来详细对比 MLX、Ollama 和 DFlash 三种部署方案的优劣。一、Mac Mini M4 16GB 能跑什么模型先算一笔账…

3199

3月前

苏米注：MiniMax-M2.7 量化版发布后，Unsloth 团队第一时间推出了 22 个 GGUF 量化版本，从 1-bit 到 8-bit 全覆盖。最值得关注的是 4-bit 动态量化版只需要 108GB，一台 128GB 内存的 M…

2851

3月前

AI学习教程

Gemma 4 模型家族与端侧部署场景 Gemma 4 的开源将端侧 AI 推向工程化落地阶段。它提供四个变体，针对不同资源场景设计：E2B（最轻量）、E4B（平衡版）、26B A4B（MoE 架构）和 31B（最强性能）。端侧部署的核心…

1742

3月前

AI学习教程

为什么选择本地化部署？作为产品经理，我在过去一年里测试了20+个大模型部署方案。今天分享的Ollama×魔搭社区组合，是我目前在企业级和个人项目中验证过的最优解。我们的核心诉求很明确：在保证性能的前提下，最大化部署灵活性。…

2962

8月前

AI学习教程

#本地大模型