大模型 - 苏米客

本文介绍如何在本地运行AI大模型，使用目前主流的两个工具：Ollama和LM Studio。一个适合开发者，一个适合所有人。为什么要本地运行大模型？本地运行大模型的核心优势：零费用：没有API调用计费，运行多少次都不花钱隐私安全：…

117

昨天

AI学习教程

最近这一年，关于端侧 AI 这个话题的讨论越发激烈，手机芯片的 NPU 算力也一路狂飙。上个月谷歌开源的 Gemma 4 模型，因为能直接塞进手机里跑，进一步把讨论推向高潮。谷歌开源的 Google AI Edge Gallery 是一个…

175

6天前

AI开源项目

大语言模型的推理能力正在经历一场深刻变革——测试时计算扩展（Test-Time Scaling）范式已成为新的性能增长引擎。然而，标准注意力机制的复杂度随上下文长度呈平方级增长，这是制约超长上下文处理的根本瓶颈。现…

185

1周前

商汤日日新（SenseNova）上线了 Token Plan 免费计划，注册即可领取免费 API Token，直接调用三个大模型。对于 AI 开发者和想零成本体验大模型的用户来说，这是一个值得关注的入口。免费计划提供哪些模型？目前免费计…

946

1周前

七牛云 AI 平台近期上线了一批完全免费的大模型，涵盖通用对话、深度推理、编程开发和 Agent 构建四大场景。对于想低成本尝试多种模型的开发者来说，这是一个值得关注的机会。苏米注：七牛云这个 AI 平台其实已经做了一段时间，之前主要是存…

1173

3周前

AI工具集合

摘要：本文详细介绍国内六大厂（阿里、腾讯、字节、百度、智谱、MiniMax）的 CodingPlan/TokenPlan 套餐费用、限制及可用模型。4 月底最新数据，帮助开发者选择合适的 AI 编程套餐。国内各大厂的按次 CodingPl…

1553

3周前

AI工具集合

阿里发布了 Qwen3.6-27B，27B 参数的 Dense 架构模型（不是 MoE），原生支持 262K 上下文，Apache-2.0 开源。苏米注：Dense 架构相比 MoE 部署更简单，不需要考虑路由问题，推理更稳定。这是本…

2723

3周前

AI产品百科

今年以来，OpenClaw、Hermes 这些 Agent 工具接连爆火，但 Token 消耗快得吓人，只是对话几次、简单设置个任务，一天就烧掉几十块。于是越来越多人把目光转向了本地模型部署，既省钱又能离线使用。苏米注：但真动手的时候，…

341

3周前

AI开源项目

苏米注：手持一台 Mac Mini M4 16GB，想跑本地大模型但不知道选哪个方案？这篇文章帮你选。我来详细对比 MLX、Ollama 和 DFlash 三种部署方案的优劣。一、Mac Mini M4 16GB 能跑什么模型先算一笔账…

1332

4周前

苏米注：MiniMax-M2.7 量化版发布后，Unsloth 团队第一时间推出了 22 个 GGUF 量化版本，从 1-bit 到 8-bit 全覆盖。最值得关注的是 4-bit 动态量化版只需要 108GB，一台 128GB 内存的 M…

1116

4周前

AI学习教程

#大模型