10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI最新动态

Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!

3月前 AI最新动态 538 0

大家有没有这种感觉: 明明只想让大模型看10段资料,它偏偏要硬塞100段,消耗的token数像火箭一样增长,速度还慢得像乌龟?

恭喜你,这个行业通病,Meta今天直接给治好了。

他们刚开源了一个叫 REFRAG 的新 RAG 方案,简单粗暴地说:把无关的上下文压缩到几乎不占地方,只给模型看真正有用的那部分。

实测结果直接看傻人:

  • 首token延迟快30.85倍
  • 有效上下文窗口扩大16倍
  • 处理的token量减少2-4倍
  • 在16个主流RAG评测上全面吊打原版LLaMA

这不是小修小补,这是对RAG架构的一次降维打击。

传统RAG为什么这么“废”?

我们现在用的RAG基本都是这个流程:

查询 → 向量检索出Top-K(通常100个)chunks → 全部塞给LLM → 模型一边骂娘一边读垃圾

结果就是:

  • 90%的chunk其实没用
  • 上下文窗口被灌满,速度暴跌
  • 算力账单爆炸

你花的每一分钱,有一大半都在给模型“喂垃圾”。

REFRAG是怎么做到降维打击的?

核心思路只有一个:在把文本塞给LLM之前,就把99%的噪音干掉。

它完全不走传统的“全文本硬塞”路线,而是先在embedding层面动刀:

  1. 每个chunk被压缩成一个极短的向量(就一个token那么点成本)
  2. 一个用强化学习(RL)训练的策略网络,对这堆压缩向量快速打分
  3. 只把分数最高的几块解压还原成完整文本
  4. 其余低分chunk继续保持“压缩态”(几乎不占token)或者直接扔掉
  5. 最后:高质量完整chunk + 海量压缩向量一起喂给LLM

模型看到的是:

  • 真正相关的几段原文(完整无损)
  • 几千个“背景氛围感”压缩向量(提供全局语义,但几乎不花钱)

相当于给模型配了个超级聪明的前置过滤器,它只用读重点,其他的用“压缩包”糊一下就行。

真实效果有多离谱?

官方测了,同样的硬件,同样的模型:

方案 首token延迟 上下文容量 token消耗 16项RAG基准准确率
传统RAG 1x 1x 1x 基准
REFRAG 30.85x快 16x大 2-4x少 全面超越

这意味着你可以用原来1/30的延迟、1/4的成本,把上下文窗口从4k/8k直接拉到64k甚至更高,而且准确率还涨了。

这对我们普通人意味着什么?

  1. 长上下文应用彻底放飞:100万字文档问答?以前卡死,现在随便跑
  2. 企业级RAG成本暴降:原来一天几万刀的推理费用,可能直接降到几千刀
  3. 开源即用:Meta已经把代码和模型全扔GitHub了,想玩的直接冲

写在最后

RAG从诞生那天起,就被“上下文垃圾”这个问题死死卡住脖子。

今天,Meta直接一巴刀把这个脖子砍断了。

REFRAG告诉我们:不是上下文不够长,而是我们以前太蠢,不会挑重点。

未来属于会“精打细算”的RAG,而REFRAG就是第一个真正做到的人。

论文地址:https://arxiv.org/pdf/2509.01092

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:Meta宣布彻底解决RAG最大痛点:速度提升30倍,上下文窗口暴增16倍,成本直接腰斩!
#RAG #Meta 
收藏 1
mcp-use:全栈MCP框架,6行代码接入任意MCP服务器
基于 OpenClaw + Codex + ClaudeCode 的智能体集群架构完整开源
推荐阅读
  • Cursor 教育优惠风险提示:SheerID验证error、学信网二次审核、国科大研究所等可能引发Cursor 风控
  • Cursor已死?Claude Code 的 L4 Agent 已来!Anthropic正在用大模型降维打击AI编程
  • Windsurf Wave 9 SWE-1 模型如何重塑软件工程全流程:从写代码到理解开发流程
  • DeepSeek-V3.1正式发布,并同步开源!
  • n8n 2.0 来了,到底改了什么?升级迁移项目该怎么做?
评论 (0)
请登录后发表评论
分类精选
Cursor 限制国内使用 Claude 等模型解决方案!
25178 7月前
学生/非学生:如何申请Cursor Pro免费会员,如何通过SheerID验证快速激活全攻略
24003 9月前
即梦AI图片2.1:一句话快速生成带中文的海报图,免费AI文生图、视频工具、AIGC创作工具
16329 1年前
DeepSeek宣布:降价,最高降价75%!别错过这个优惠时段,赶紧充值
14907 12月前
注意!Cursor单设备登录新规:一个账户最多可以3台设备登录,且限制单点登录
14873 10月前
字节跳动发布"扣子空间":AI协同办公的通用Agent平台开启效率革命
13399 10月前
刚刚!Cursor风控又加强了,可能是因为这个原因!
13067 10月前
Trae国内版,搭载 doubao-1.5-pro、DeepSeek R1/V3模型,对比 Trae 国际版有什么不同
12053 11月前
Cline:自动化编程的VSCode插件Claude Dev + Gemini 2.0,快速构建智能应用
10446 1年前
字节推出Trae CLI :Claude Code 和 Gemini CLI的国产平替 ?手把手教你如何安装Trae Agent
9520 7月前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 Cline 升级:Minimax‑2.1、Kimi‑k2.5 限时免费开放,Cline CLI 2.0 同步上线
2 开工速览:OpenClaw(小龙虾)的前世今生
3 Claude-Mem 搭配 OpenClaw:为 AI 智能体装上持久记忆的终极组合
4 阿里云Coding Plan:告别烧token焦虑,按次计费,支持千问3.5、GLM-5、Kimi-K2.5等模型
5 GLM-5 技术报告深度解析|a16z:开源模型之首
6 Anthropic点名三家中国AI公司涉蒸馏攻击,马斯克反击:你们也不干净
7 Claude全新上线的 MCP Apps:一个聊天框打通全流程工具,让MCP自带UI
8 谷歌出手:Gemini 上线 Lyria 3,7.5 亿人“拍照出歌”,可免费体验
9 Kimi 版 OpenClaw 上线:一键上云,5000+ Skills 即装即用
10 豆包大模型 Seed2.0 全系发布|全信息汇总(附 79 页 Model Card)
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联