近期,OpenDataLab 团队发布了最新的文档解析模型(PDF-to-Markdown)——MinerU2.5-Pro。该模型实现了"小尺寸,高精度"。模型参数量仅有 1.2B,但在权威 OmniDocBench V1.6 文档解析榜单中,以 95.69 分取得 SOTA。它全面超越了多款顶级 OCR 模型(GLM-OCR, PaddleOCR-VL-1.5)和 VLM 视觉模型(Gemini 3 Pro, Qwen3-VL-235B)。

MinerU2.5-Pro 核心特点
- 开源易用:配备完善的 CLI 和工具链,开箱即用
- 多场景支持:支持扫描版 PDF、手写识别、复杂公式、跨页表格合并和图表识别
- 多后端兼容:支持 transformers、mlx-engine 和 vllm-engine 等多种 backend
本地部署教程
要在本地部署 MinerU2.5-Pro 模型,需要用到 OpenDataLab 团队开源的 mineru-vl-utils 工具包。它支持 http-client、transformers、mlx-engine、lmdeploy-engine、vllm-engine 和 vllm-async-engine 等 6 种不同的 backend。
下面,我们将使用 transformers backend 来运行 MinerU2.5-Pro 模型。
步骤 1:配置虚拟环境
python3 -m venv .venv
source .venv/bin/activate
步骤 2:安装 mineru-vl-utils
pip install "mineru-vl-utils[transformers]"
步骤 3:下载模型
使用 hf download 命令,把 Hugging Face 线上的模型下载到本地指定目录:
hf download opendatalab/MinerU2.5-Pro-2604-1.2B --local-dir model/MinerU2.5-Pro-2604-1.2B
步骤 4:运行 MinerU2.5-Pro 模型
from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from PIL import Image
from mineru_vl_utils import MinerUClient
from mineru_vl_utils.post_process import json2md
output_path = "output.md"
model = Qwen2VLForConditionalGeneration.from_pretrained(
"model/MinerU2.5-Pro-2604-1.2B", dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained(
"model/MinerU2.5-Pro-2604-1.2B", use_fast=True
)
client = MinerUClient(
backend="transformers", model=model, processor=processor,
enable_table_formula_eq_wrap=True,
image_analysis=False # default False, set True to enable image/chart analysis
)
content_list = client.two_step_extract(Image.open("complex-table.webp"))
md_res = json2md(content_list)
with open(output_path, "w", encoding="utf-8") as f:
f.write(md_res)
在以上代码中,调用 client.two_step_extract 方法后,会返回 ContentBlock 列表对象。每个 ContentBlock 对象有一个 type 属性,用于表示内容块的类型。它的值可能是 'text', 'image', 'table' 或 'equation'。除了 type 属性外,还包含 hbox、angle 和 content 属性。
以下是公式识别返回的 ContentBlock 示例:
[
{
"type": "equation",
"bbox": [0.013, 0.038, 0.335, 0.152],
"angle": 0,
"content": "\\[\\n\\mathfrak {p} [ v ] (e) = \\sum f _ {x} ^ {p, e} (v (x))\\n\\]"
}
]
功能实测
公式识别


表格识别


手写识别


图表识别
当需要图片分析或图表分析功能时,你需要把 image_analysis 参数值设置为 True。


总结
经过对 MinerU2.5-Pro 的能力进行多方面测试,发现 MinerU2.5-Pro 的综合能力还是挺强的,本地的推理速度也挺快。如果你测试完发现 MinerU2.5-Pro 不能满足你的需求,你可以试一下 Mineru CLI 提供的 pipeline 模式,该 CLI 除了支持解析 PDF 文档,还支持解析 DOCX、PPTX 和 XLSX 文档。