Deepseek R1 OCR
时间: 2025-03-01 22:48:53 浏览: 189
### Deepseek R1 OCR 功能介绍
Deepseek R1 提供了一套强大的光学字符识别(OCR)工具,能够处理多种图像中的文字提取任务。该功能支持多语言文本检测与识别,并具备高精度的文字定位能力[^1]。
对于想要利用此API实现特定业务逻辑的开发者来说,理解如何调用以及配置参数至关重要。
#### API请求结构
为了发起一次有效的OCR请求,需构建如下形式的数据体:
```json
{
"image": "<base64_encoded_image>",
"language": "en",
"detectOrientation": true,
"returnTextAngle": false
}
```
其中`<base64_encoded_image>`代表待分析图片经过Base64编码后的字符串;而其他字段则用于指定目标语言、是否自动纠正旋转角度等功能选项。
#### Python客户端示例代码
下面给出一段简单的Python脚本作为参考,展示怎样通过HTTP POST方法发送上述JSON格式数据给服务器端接口完成OCR操作:
```python
import base64
import requests
from PIL import Image
from io import BytesIO
def ocr(image_path, api_key):
url = 'https://api.deepseek.ai/vision/ocr'
with open(image_path, 'rb') as img_file:
buffered = BytesIO(img_file.read())
img_base64 = base64.b64encode(buffered.getvalue()).decode('utf-8')
payload = {
"image": img_base64,
"language": "auto", # 自动识别语言
"detectOrientation": True,
"returnTextAngle": False
}
headers = {'Authorization': f'Bearer {api_key}'}
response = requests.post(url=url, json=payload, headers=headers)
if response.status_code == 200:
result = response.json()
print("成功解析到的内容:", result['text'])
else:
print(f"发生错误: HTTP状态码{response.status_code}")
if __name__ == '__main__':
image_path = './example.jpg' # 替换成自己的测试图片路径
api_key = '<your_api_key_here>' # 获取自官方平台
ocr(image_path=image_path, api_key=api_key)
```
这段程序首先读取本地文件并将其转换成适合传输的形式,接着设置必要的参数并通过POST方式提交至远程服务获取返回的结果。最后打印出所识别出来的文本信息。
阅读全文
相关推荐




















