PP-OCRv5_server_det.yml参数解释

最新推荐文章于 2025-07-02 15:43:49 发布

简诚

最新推荐文章于 2025-07-02 15:43:49 发布

阅读量1.1k

点赞数 10

CC 4.0 BY-SA版权

文章标签： ocr

以下是OCR检测模型配置文件各参数的详细解释，按模块分类说明：

model_type: 任务类型（det表示检测任务）
algorithm: 核心算法（DB即Differentiable Binarization）
Transform: 输入图像预处理（null表示无需额外变换）
Backbone:
- name: 主干网络（PPHGNetV2_B4，高性能CNN）
- det: 是否为检测任务定制（true）
Neck:
- name: 特征融合模块（LKPAN，改进的特征金字塔）
- out_channels: 输出通道数（256）
- intracl: 是否使用层内连接（true）
Head:
- name: 检测头类型（PFHeadLocal，渐进式特征头）
- k: 关键点数量（50）
- mode: 规模模式（large表示大模型）

name: 优化器类型（Adam）
beta1/beta2: Adam动量参数（0.9/0.999）
lr:
- name: 学习率调度策略（Cosine余弦退火）
- learning_rate: 初始学习率（0.001）
- warmup_epoch: 学习率预热轮数（2轮）
regularizer:
- name: 正则化方法（L2权重衰减）
- factor: 正则化系数（1e-6）

dataset:
- name: 数据集类型（SimpleDataSet）
- data_dir: 训练数据目录（ICDAR2015路径）
- label_file_list: 训练标签文件路径
- ratio_list: 数据采样比例（[1.0]表示全采样）
- transforms: 数据增强流水线：
  - DecodeImage: 图像解码（BGR格式）
  - DetLabelEncode: 标签解析
  - CopyPaste: 复制粘贴增强
  - IaaAugment: 多策略增强（翻转/旋转/缩放）
  - EastRandomCropData: 随机裁剪（640x640）
  - MakeBorderMap: 生成阈值图（配合DB算法）
  - MakeShrinkMap: 生成二值图（文本区域收缩）
  - NormalizeImage: 标准化（ImageNet均值/方差）
  - ToCHWImage: 转换张量维度（HWC → CHW）
  - KeepKeys: 指定需保留的数据键
loader:
- shuffle: 数据打乱（true）
- drop_last: 是否丢弃末尾不完整batch（false）
- batch_size_per_card: 单GPU batch大小（8）
- num_workers: 数据加载线程数（8）

dataset:
- 与训练相似，但使用测试集标签（test_icdar2015_label.txt）
- transforms去除了数据增强，增加DetResizeForTest适配推理尺寸
loader:
- batch_size_per_card: 设为1（逐张评估）
- num_workers: 线程数减至2