#大模型

Ollama与LM Studio本地运行AI大模型完全指南
本文介绍如何在本地运行AI大模型,使用目前主流的两个工具:Ollama和LM Studio。一个适合开发者,一个适合所有人。 为什么要本地运行大模型? 本地运行大模型的核心优势: 零费用:没有API调用计费,运行多少次都不花钱 隐私安全:…
Google AI Edge Gallery:把大模型装进口袋,支持 iOS 和 Android 系统的端侧 AI 神器
最近这一年,关于端侧 AI 这个话题的讨论越发激烈,手机芯片的 NPU 算力也一路狂飙。上个月谷歌开源的 Gemma 4 模型,因为能直接塞进手机里跑,进一步把讨论推向高潮。 谷歌开源的 Google AI Edge Gallery 是一个…
DeepSeek-V4 发布:开源模型首支持百万Token 上下文,Codeforces 评级 3206
大语言模型的推理能力正在经历一场深刻变革——测试时计算扩展(Test-Time Scaling)范式已成为新的性能增长引擎。然而,标准注意力机制的复杂度随上下文长度呈平方级增长,这是制约超长上下文处理的根本瓶颈。 现…
商汤日日新开放免费Token:DeepSeek V4 Flash 等三大模型免费调用
商汤日日新(SenseNova)上线了 Token Plan 免费计划,注册即可领取免费 API Token,直接调用三个大模型。对于 AI 开发者和想零成本体验大模型的用户来说,这是一个值得关注的入口。 免费计划提供哪些模型? 目前免费计…
七牛云上线 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,而且能白嫖 5 款大模型 千问、GLM、Longcat 等
七牛云 AI 平台近期上线了一批完全免费的大模型,涵盖通用对话、深度推理、编程开发和 Agent 构建四大场景。对于想低成本尝试多种模型的开发者来说,这是一个值得关注的机会。 苏米注:七牛云这个 AI 平台其实已经做了一段时间,之前主要是存…
国内大厂CodingPlan/TokenPlan 套餐对比:阿里腾讯字节百度智谱 MiniMax 最新价格
摘要:本文详细介绍国内六大厂(阿里、腾讯、字节、百度、智谱、MiniMax)的 CodingPlan/TokenPlan 套餐费用、限制及可用模型。4 月底最新数据,帮助开发者选择合适的 AI 编程套餐。 国内各大厂的按次 CodingPl…
Qwen3.6-27B 实测报告:本地模型跑出 GPT-4 水准,27B Dense 架构超越 397B MoE
阿里发布了 Qwen3.6-27B,27B 参数的 Dense 架构模型(不是 MoE),原生支持 262K 上下文,Apache-2.0 开源。 苏米注:Dense 架构相比 MoE 部署更简单,不需要考虑路由问题,推理更稳定。这是本…
llmfit 开源工具:一键检测你的电脑能跑哪些本地大模型
今年以来,OpenClaw、Hermes 这些 Agent 工具接连爆火,但 Token 消耗快得吓人,只是对话几次、简单设置个任务,一天就烧掉几十块。于是越来越多人把目光转向了本地模型部署,既省钱又能离线使用。 苏米注:但真动手的时候,…
Mac Mini M4 部署 Qwen3.5 最佳方案:MLX、Ollama、DFlash 全面对比评测
苏米注:手持一台 Mac Mini M4 16GB,想跑本地大模型但不知道选哪个方案?这篇文章帮你选。我来详细对比 MLX、Ollama 和 DFlash 三种部署方案的优劣。 一、Mac Mini M4 16GB 能跑什么模型 先算一笔账…
MiniMax-M2.7 量化版本地部署指南:Unsloth 22 个版本选择 +3 种部署方式详解
苏米注:MiniMax-M2.7 量化版发布后,Unsloth 团队第一时间推出了 22 个 GGUF 量化版本,从 1-bit 到 8-bit 全覆盖。最值得关注的是 4-bit 动态量化版只需要 108GB,一台 128GB 内存的 M…