论文团队:华中科技大学(白翔)
论文链接:https://arxiv.org/pdf/1911.08947.pdf
工程链接:https://github.com/MhLiao/DB
该算法的特点就是:后处理速度快,与PANNet相比,可以节省差不多一半的时间(在本人台式机cpu运行);
目录
2.可微二值(differentiable binarization)
3.自适应阈值(Adaptive threshold)(略)
4.可变形卷积(Deformable convolution)
1.算法的整体框架
主要三个步骤:首先:图像输入特征提取主干,提取特征;
其次: 特征金字塔上采样到相同的尺寸,并进行特征级联到特征F;
然后:特征F用于预测概率图(probability map P)和阈值图(threshold map T);
最后:通过P和F计算近似二值图(approximate binary map B^)
论文算法主要包括了以下几部分:
2.可微二值(differentiable binarization)
标准二值处理:
一般使用分割网络(segmentation network)产生的概率图(probability map P),将P转化为一个二值图P,当像素为1的时候,认定其为有效的文本区域,同时二值处理过程:
i和j代表了坐标点的坐标,t是预定义的阈值;
但是标准的二值处理是不可微的,这样分割网络不可以在训练过程中优化。所以作者提出了可微二值: