10+年产品经理聊聊产品、测测产品,产品人交流学习成长平台,按 Ctrl+D 收藏我们
关于我 留言板 小程序 标签云

苏米客

  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
  • 登录
  • 首页
  • AIGC
    • AI最新动态
    • AI学习教程
    • AI工具集合
    • AI产品百科
    • AI编程开发
    • AI提示词
    • AI开源项目
    • AI智能体
  • Axure
    • Axure动态
    • Axure教程
  • 产品
    • 用户体验
    • 产品设计
    • 苏米杂谈
  • 资源
    • 产品UI组件库
    • 开源图标库
    • 中后台框架
  • 书单
    • AI书籍
    • 用户体验
    • UI视觉
    • 产品研究
    • 其他类型
  • 下载
    • Axure组件
    • Axure原型
    • 文档报告
    • 素材资源
当前位置: 首页 » AI工具集合

PP-OCRv6 实测:34.5M 专用模型打败 235B 大模型?三档 OCR 对比评测

1小时前 AI工具集合 12 0

上个月我写了一篇 OCR 选型实测的文章,测试了 18 个文档、6 类场景,核心观点其实很简单:OCR 没有一个模型能通吃所有场景。规整的打印文本、手写笔记、表格、双栏排版的论文、带公式的文档——这些背后是完全不同的技术需求。你需要的是逐字还原,还是对文档的整体理解?你的数据能不能传到云端?这些问题的答案,比单纯看"哪个模型分数最高"重要得多。

文章发出来后,不少朋友反馈说受限于硬件条件或因为各种原因不方便复现测试流程。所以我干脆把搭好的这套 OCR 项目开源了,今天用 10 分钟教大家怎么在本地跑起来,同时也分享了一轮新的实测结果。

为什么又聊 OCR?

上一篇写完没多久,PaddleOCR 团队就发布了 PP-OCRv6。真正引起我注意的是两个数字:Tiny 版本只有 1.5MB,可以直接跑在浏览器里;Medium 档只有 34.5M 参数,在 OCR 专项任务上官方称它超过了 Qwen3-VL-235B。

34.5M 参数的模型在特定任务上打赢了 235B 参数的大家伙——后者的规模是前者的将近 7000 倍。这就好比一辆自行车在胡同里比超跑跑得还快,因为比的场景不一样。

于是我把 PP-OCRv6 的 Tiny、Small、Medium 三档模型全部接进了本地 OCR Studio,用同一套测试标准逐档切换模型,一张一张跑了一遍。

快速背景科普

OCR(光学字符识别)就是把图片里的文字变成可以编辑的文本。PaddleOCR 是百度文心团队开源的 OCR 系统,在国内开发者社区里用的人很多。PP-OCRv6 是最新版本,今年 6 月 11 号发布。

现在主流 OCR 有两条路:一是传统的"检测+识别"流水线,轻量可以在手机和笔记本上本地跑;二是多模态大模型,精度高但模型很重,通常需要调用云端 API。PP-OCRv6 走的是第一条路。

测试环境和方法

我搭了一个本地 OCR 工作台,支持拖拽上传和截图直接粘贴,三档模型可以在设置页一键切换,识别完能看到框选可视化,所有历史记录保留并支持导出 CSV 或 Excel。

本次测试的四个选手:

模型 大小 运行环境
PP-OCRv6 Tiny 1.5MB Chrome 浏览器
PP-OCRv6 Small 7.7MB 本地运行
PP-OCRv6 Medium 34.5MB 本地运行
Apple Vision 系统自带 macOS 原生

部署方式简单到离谱:克隆代码 → 安装依赖 → 启动服务。从零开始到跑通第一张图,实测不到 10 分钟。苹果芯片的 Mac 会自动走硬件加速,开箱即用。

三档模型的技术差异

Tiny、Small、Medium 三档共用同一套骨干网络,区别主要在网络宽度和深度上。Tiny 跑在浏览器里,图片不出本地;Small 适合移动端或轻量应用;Medium 精度最高,适合对识别质量有要求的本地部署。

官方 OCR 专项数据:

模型 检测分 识别分
Medium 86.2 83.2
Small 84.1 81.3
Tiny 80.6 73.5

作为对比,Qwen3-VL-235B 的检测分是 38.3,识别准确率是 74.9。一个 34.5M 的模型能在 OCR 任务上打赢 235B 的大模型,答案在于专用 vs 通用。PP-OCRv6 的整个架构就是为 OCR 设计的,在 OCR 这件事上练到了极致。

实测结果

标准测试集整体结果(编辑距离,越低越好):

模型 编辑距离
PP-OCRv6 Medium 0.425
PP-OCRv6 Small 0.443
PP-OCRv6 Tiny 0.446
Apple Vision 0.448

整体均值差距很小,都在 5% 以内,但拆到具体场景差距就显出来了。最典型的是手写笔记:

模型 手写笔记编辑距离
PP-OCRv6 Medium 0.228
PP-OCRv6 Small 0.245
PP-OCRv6 Tiny 0.283
Apple Vision 0.570

Medium 比苹果系统自带的 OCR 好了 2.5 倍。

四张实战挑战图

斜拍名片:透视变形加彩色底,字小且有白字和彩色块混在一起。Medium 最完整,品牌、姓名、职位、电话、网址全部读出;Small 漏掉了职位行;Tiny 只读出了名字和品牌;Apple Vision 名字识别有错字。

点阵字体:用点阵拼出来的字,字形断裂。Small 最稳,两行完整识别;Medium 同样稳;Tiny 偶有字符缺失。

轮胎侧壁压印:低对比度、浮雕字。Medium 读出了完整信息;Apple Vision 只读出了"220";Tiny 读出了"TREADWEAR"但后续行不稳。

电梯数码屏:七段数码管字体,金属反光。三档 PP-OCRv6 都识别出了产品编号、品牌名和网址;Apple Vision 反光区域有漏检。

速度参考(苹果芯片加速下):Tiny 约 3-15 秒/张,Small 约 4-25 秒/张,Medium 约 10-52 秒/张,Apple Vision 约 0.16-0.54 秒/张。

大模型的一个隐蔽问题

大模型做 OCR 时有一个隐蔽问题——它会"好心办坏事"。图片里如果有错别字,大模型不是忠实地抄下来,而是自动帮你"纠正"成正确的写法。从理解语义的角度看好像挺聪明,但从逐字还原的角度看这是 bug。

PP-OCRv6 在"精确匹配率"指标上是 93.2%,而 Qwen3-VL-235B 是 80.6%,差了将近 13 个百分点。这 13 个百分点在一些场景里可能就是"能用"和"不能用"的区别。

该怎么选?

Tiny:适合浏览器或嵌入式场景,1.5MB,图片不出本地。

Small:甜点档位,7.7MB,速度和精度的平衡点,手写识别比 Tiny 有明显提升。

Medium:精度优先,手写、彩色教材、低对比度边缘场景提升明显。

三档共同的优点是:数据不出本地,不用 API key,不需要联网,随便一台笔记本就能跑。

不同场景的选择:

  • 律师审合同:需要逐字还原,一个字都不能脑补。PP-OCRv6 三档都够用,数据不出本地
  • 老师改手写作业:手写识别是 PP-OCRv6 的强项,Medium 比苹果原生好 2.5 倍
  • 财务核发票:金额、税号、日期必须完全一致。专用轻量模型没有"脑补"风险
  • 研究者读论文:需要理解文档结构,现阶段用多模态大模型更合适

OCR 的未来不是一条路吃掉另一条。逐字抄写和文档理解需要的是两种完全不同的能力。别急着为 OCR 花钱,先想清楚自己的场景,再选工具。

声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
未经允许不得转载:PP-OCRv6 实测:34.5M 专用模型打败 235B 大模型?三档 OCR 对比评测
#PP-OCRv6 # OCR # 百度 # PaddleOCR # 本地 OCR # 文本识别 # AI 工具 
收藏 1
Open File Viewer:支持 110 种文件格式的前端预览 SDK,兼容 Vue/React/Svelte
douyin 短视频运营开源工具:对标账号采集 + 多平台自动发布 + 内容拆解
推荐阅读
  • OpenCLI 神器:一个工具搞定公众号/小红书/B 站数据获取
  • 腾讯 CodeBuddy 与 WorkBuddy 详解:AI 编程与办公自动化全链路工具对比
  • 8款AI对口型工具,口型同步开源工具合集推荐及应用场景,生成高质量语音 + 口型同步
  • 5款开源AI笔记神器推荐:私有化部署 + AI加持,让记录和整理变得更智能
  • 20款核心AI API 开发人员必备,涵盖文本生成、语音处理、图像识别、视频编辑四大领域
评论 (0)
请登录后发表评论
分类精选
12款国内外最全AI绘画工具推荐,AI文生图工具深度测评与场景化对比
40030 1年前
2025开源AI数字人工具指南:8大免费开源神器带你免费解锁可商用的AI数字人
34000 1年前
15款国内免费好用的AI写作神器合集,2025超干货! Ai写作工具推荐,支持论文长文
30275 1年前
2025年普通人必须要知道的15个AI工具,可以让日常工作效率大幅度提升
23853 1年前
8 款 AI 翻译浏览器插件,沉浸式翻译助你轻松阅读网页
19113 1年前
10 个主流 AI Agent Skill 市场平台横向对比:Clawhub、Skillsmp、SkillHub 哪家强?
16913 2月前
谁会成为下一个Cursor的平替,盘点 8 款可用 Claude 4 的AI编程工具
14068 11月前
5款开源TTS,零样本声音克隆,克隆你想要的声音,快速本地部署(含一键包下载)
13822 1年前
8 款热门 AI 图片+视频生成工具:文生图、文生视频、图生视频
13819 1年前
2025年热门好用的 AI换脸工具大全,适合内容创作者、视频剪辑师、特效制作、AI 爱好者使用
13049 1年前

文章目录

关注「苏米客」公众号

订阅推送更及时,手机查看更方便
分类排行
1 PP-OCRv6 实测:34.5M 专用模型打败 235B 大模型?三档 OCR 对比评测
2 实测11分钟到17分钟:四款主流桌面Agent做PPT,到底谁才是真王者?
3 PM-Skills:把产品管理方法论编码为 AI 工作流,GitHub 三月 1.6 万 Star
4 6 个 AI Skill 组合:从需求到 Demo,10 分钟完成产品开发全流程
5 火山方舟 Coding Plan 2.5 折:10 款大模型任选,兼容 Claude Code 等 AI 编程工具
6 55 个 AI RSS 订阅源实测整理:按场景分类,覆盖研究、工程、行业动态
7 微软 Intelligent Terminal 开源:终端内置 AI 助手,报错自动修复
8 CC Switch:用免费模型享受付费级稳定性,多模型自动降级熔断
9 Agnes AI全模态API永久免费:中小团队零成本接入指南
10 OpenUI:AI生成UI开源新标准,比JSON省67%Token
©2015-2024 苏米客XMSUMI 版权所有 · WWW.XMSUMI.COM 闽ICP备14005900号-6
微信文章助手 程序库 免费影视APP 免费字体下载 Axure RP 10 免费Axure模板 Axure元件库下载 申请友联