—————【下 载 地 址】———————
【本章下载一】:迅雷云盘
【本章下载二】:迅雷云盘
【百款黑科技】:https://ucnygalh6wle.feishu.cn/wiki/HPQywvPc7iLZu1k0ODFcWMt2n0d?from=from_copylink
—————【下 载 地 址】———————
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。
主要功能
功能介绍图
- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为LaTeX格式
- 自动识别并转换文档中的表格为HTML格式
- 自动检测扫描版PDF和乱码PDF,并启用OCR功能
- OCR支持84种语言的检测与识别
- 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
- 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
- 兼容Windows、Linux和Mac平台
-
本地部署
使用 pip 或 uv 安装
复制代码 隐藏代码
# 将当前 Python 环境中的 pip 工具升级到最新版本 pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple # 使用 pip 从阿里云镜像源安装名为 uv 的 Python 包 pip install uv -i https://mirrors.aliyun.com/pypi/simple # 使用 uv 工具安装或升级名为 mineru 的包,并且安装的是带有 core 可选依赖的版本 uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple
源码安装
复制代码 隐藏代码
git clone https://github.com/opendatalab/MinerU.git cd MinerU uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
安装client(用于在仅需 CPU 和网络连接的边缘设备上连接 sglang-server)
复制代码 隐藏代码
uv pip install -U mineru -i https://mirrors.aliyun.com/pypi/simple mineru -p <input_path> -o <output_path> -b vlm-sglang-client -u http://<host_ip>:<port>
使用 MinerU
命令行使用方式
最简单的基础用法命令行调用方式如下:
复制代码 隐藏代码
# <input_path>:本地 PDF/图片 文件或目录(支持 pdf/png/jpg/jpeg/webp/gif) # <output_path>:输出目录 mineru -p <input_path> -o <output_path>
获取所有可用参数说明:
复制代码 隐藏代码
mineru --help # 参数详解 Usage: mineru [OPTIONS] Options: -v, --version 显示版本并退出 -p, --path PATH 输入文件路径或目录(必填) -o, --output PATH 输出目录(必填) -m, --method [auto|txt|ocr] 解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端) -b, --backend [pipeline|vlm-transformers|vlm-sglang-engine|vlm-sglang-client] 解析后端(默认为 pipeline) -l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|latin|arabic|east_slavic|cyrillic|devanagari] 指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端) -u, --url TEXT 当使用 sglang-client 时,需指定服务地址 -s, --start INTEGER 开始解析的页码(从 0 开始) -e, --end INTEGER 结束解析的页码(从 0 开始) -f, --formula BOOLEAN 是否启用公式解析(默认开启) -t, --table BOOLEAN 是否启用表格解析(默认开启) -d, --device TEXT 推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端) --vram INTEGER 单进程最大 GPU 显存占用(GB)(仅 pipeline 后端) --source [huggingface|modelscope|local] 模型来源,默认 huggingface --help 显示帮助信息
使用本地模型
复制代码 隐藏代码
# 下载模型到本地 mineru-models-download --help
下载完成后,模型路径会在当前终端窗口输出,并自动写入用户目录下的 mineru.json。
复制代码 隐藏代码
# 使用本地模型进行解析 mineru -p <input_path> -o <output_path> --source local
API 调用
使用python api直接调用
使用fast api方式调用
复制代码 隐藏代码
# 在浏览器中访问 http://127.0.0.1:8000/docs 查看API文档 mineru-api --host 127.0.0.1 --port 8000
可视化调用
使用gradio webui 或 gradio api调用
复制代码 隐藏代码
# 使用 pipeline/vlm-transformers/vlm-sglang-client 后端 mineru-gradio --server-name 127.0.0.1 --server-port 7860 # 或使用 vlm-sglang-engine/pipeline 后端 mineru-gradio --server-name 127.0.0.1 --server-port 7860 --enable-sglang-engine true
在浏览器中访问 http://127.0.0.1:7860 使用 Gradio WebUI 或访问 http://127.0.0.1:7860/?view=api 使用 Gradio API。
已知问题
- 阅读顺序基于模型对可阅读内容在空间中的分布进行排序,在极端复杂的排版下可能会部分区域乱序
- 对竖排文字的支持较为有限
- 目录和列表通过规则进行识别,少部分不常见的列表形式可能无法识别
- 代码块在layout模型里还没有支持
- 漫画书、艺术图册、小学教材、习题尚不能很好解析
- 表格识别在复杂表格上可能会出现行/列识别错误
- 在小语种PDF上,OCR识别可能会出现字符不准确的情况(如拉丁文的重音符号、阿拉伯文易混淆字符等)
- 部分公式可能会无法在markdown中渲染