最实用的PDF文档提取工具-MinerU 2.0(win 苹果 liux版本)

—————【下 载 地 址】———————
【​本章下载一】:
迅雷云盘
【​本章下载二】:迅雷云盘
【百款黑科技】:https://ucnygalh6wle.feishu.cn/wiki/HPQywvPc7iLZu1k0ODFcWMt2n0d?from=from_copylink
—————【下 载 地 址】———————

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。

主要功能

功能介绍图

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
  • 支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
  • 兼容Windows、Linux和Mac平台
  • 本地部署

    使用 pip 或 uv 安装
     复制代码 隐藏代码
    # 将当前 Python 环境中的 pip 工具升级到最新版本
    pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple
    # 使用 pip 从阿里云镜像源安装名为 uv 的 Python 包
    pip install uv -i https://mirrors.aliyun.com/pypi/simple
    # 使用 uv 工具安装或升级名为 mineru 的包,并且安装的是带有 core 可选依赖的版本
    uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple 
    源码安装
     复制代码 隐藏代码
    git clone https://github.com/opendatalab/MinerU.git
    cd MinerU
    uv pip install -e .[core] -i https://mirrors.aliyun.com/pypi/simple
    安装client(用于在仅需 CPU 和网络连接的边缘设备上连接 sglang-server)
     复制代码 隐藏代码
    uv pip install -U mineru -i https://mirrors.aliyun.com/pypi/simple
    mineru -p <input_path> -o <output_path> -b vlm-sglang-client -u http://<host_ip>:<port>

    使用 MinerU

    命令行使用方式

    最简单的基础用法命令行调用方式如下:

     复制代码 隐藏代码
    # <input_path>:本地 PDF/图片 文件或目录(支持 pdf/png/jpg/jpeg/webp/gif)
    # <output_path>:输出目录
    mineru -p <input_path> -o <output_path>

    获取所有可用参数说明:

     复制代码 隐藏代码
    mineru --help
    
    # 参数详解
    Usage: mineru [OPTIONS]
    
    Options:
      -v, --version                   显示版本并退出
      -p, --path PATH                 输入文件路径或目录(必填)
      -o, --output PATH               输出目录(必填)
      -m, --method [auto|txt|ocr]     解析方法:auto(默认)、txt、ocr(仅用于 pipeline 后端)
      -b, --backend [pipeline|vlm-transformers|vlm-sglang-engine|vlm-sglang-client]
                                      解析后端(默认为 pipeline)
      -l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|latin|arabic|east_slavic|cyrillic|devanagari]
                                      指定文档语言(可提升 OCR 准确率,仅用于 pipeline 后端)
      -u, --url TEXT                  当使用 sglang-client 时,需指定服务地址
      -s, --start INTEGER             开始解析的页码(从 0 开始)
      -e, --end INTEGER               结束解析的页码(从 0 开始)
      -f, --formula BOOLEAN           是否启用公式解析(默认开启)
      -t, --table BOOLEAN             是否启用表格解析(默认开启)
      -d, --device TEXT               推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端)
      --vram INTEGER                  单进程最大 GPU 显存占用(GB)(仅 pipeline 后端)
      --source [huggingface|modelscope|local]
                                      模型来源,默认 huggingface
      --help                          显示帮助信息

    使用本地模型

     复制代码 隐藏代码
    # 下载模型到本地
    mineru-models-download --help

    下载完成后,模型路径会在当前终端窗口输出,并自动写入用户目录下的 mineru.json。

     复制代码 隐藏代码
    # 使用本地模型进行解析
    mineru -p <input_path> -o <output_path> --source local
    API 调用

    使用python api直接调用

    使用fast api方式调用

     复制代码 隐藏代码
    # 在浏览器中访问 http://127.0.0.1:8000/docs 查看API文档
    mineru-api --host 127.0.0.1 --port 8000
    可视化调用

    使用gradio webui 或 gradio api调用

     复制代码 隐藏代码
    # 使用 pipeline/vlm-transformers/vlm-sglang-client 后端
    mineru-gradio --server-name 127.0.0.1 --server-port 7860
    # 或使用 vlm-sglang-engine/pipeline 后端
    mineru-gradio --server-name 127.0.0.1 --server-port 7860 --enable-sglang-engine true

    在浏览器中访问 http://127.0.0.1:7860 使用 Gradio WebUI 或访问 http://127.0.0.1:7860/?view=api 使用 Gradio API。

    已知问题

  • 阅读顺序基于模型对可阅读内容在空间中的分布进行排序,在极端复杂的排版下可能会部分区域乱序
  • 对竖排文字的支持较为有限
  • 目录和列表通过规则进行识别,少部分不常见的列表形式可能无法识别
  • 代码块在layout模型里还没有支持
  • 漫画书、艺术图册、小学教材、习题尚不能很好解析
  • 表格识别在复杂表格上可能会出现行/列识别错误
  • 在小语种PDF上,OCR识别可能会出现字符不准确的情况(如拉丁文的重音符号、阿拉伯文易混淆字符等)
  • 部分公式可能会无法在markdown中渲染
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值