一、适用于场景
- 财务与发票管理:企业可通过 OCR 识别发票代码、金额等关键信息,将电子发票或扫描件自动重命名为发票号_金额.pdf 格式,便于归档与税务审计。
- 物流单据处理:物流公司从运单中提取单号、收发货人信息,将文件批量重命名为运单号_收货地.jpg 等格式,可提升分拣效率。
- 电商商品管理:电商平台根据商品标签中的名称、型号等 OCR 结果重命名图片,如商品 A_型号 X_99 元.jpg,有助于优化库存搜索。
- 法律合同整理:律所将扫描的合同按合同类型_签署方_日期规则命名,如采购合同_XX 公司_20250515.pdf,可确保分类调阅高效。
二、具体详细详细步骤
- 选择处理模式:打开咕嘎批量 OCR 识别软件,根据处理的文件类型选择 “图片识别模式” 或 “PDF 识别模式”。
- 设置识别区域:将文件拖入软件界面,用鼠标框选需要识别的区域,并在右侧进行预览。若有多个区域需要识别,可多次绘制并保存,为每个坐标区域采样后起不同的名字保存,这些名字将作为导出表格的列名。
- 加载文件并批量处理:点击 “导入图片” 或 “导入 PDF” 按钮,选择待处理的文件所在的文件夹。根据需求选择 “区域识别重命名” 或 “区域识别导表格” 功能。
- 开始处理与校验:点击 “开始处理” 按钮,软件将自动提取指定区域的文字内容并进行重命名。识别完成后,检查文件名是否准确,表格内容是否完整、正确。如有错误,可调整识别区域或重新设置参数再次处理。
- 导出表格(可选):若选择了 “区域识别导表格” 功能,在识别结果界面中,点击 “导出表格” 按钮,选择导出的文件格式(如 Excel 或 CSV),并设置保存路径,点击 “导出” 即可。
三、操作注意事项
- 文件格式与质量:确保导入的文件是软件支持的图片或 PDF 格式。图片应清晰、无模糊或噪声,文字印刷清晰,分辨率过低或有倾斜等问题可能会导致识别错误。建议图片扫描 dpi 在 100-400 之间,手机拍照图片尽量在 150KB-3MB 范围内。
- 识别区域设置:框选识别区域时,要准确选择包含所需文字的区域,避免选择无关内容。多个识别区域设置时,注意避免区域之间有过多重叠或间隙,重叠区域可能导致文字重复识别,间隙过大则可能遗漏文字。
- 重命名规则:设置重命名规则时,要考虑文件名的规范性和唯一性,避免生成重复或不符合文件系统规范的文件名。需避免使用系统不允许的非法字符,如 “/”“\”“:”“*”“?”“<”“>”“|” 等。
- 数据备份:处理前建议备份原始文件,防止因操作失误或软件问题导致数据丢失。可先处理少量文件测试效果,确认无误后再进行批量操作。