ABCNet 精读：使用自适应贝塞尔曲线网络进行进行实时场景文本定位 OCR 文本定位文本检测 CVPR

最新推荐文章于 2024-08-14 14:03:30 发布

原创

最新推荐文章于 2024-08-14 14:03:30 发布 · 置顶 · 5.8k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#ocr #计算机视觉 #大数据 #算法 #神经网络

文章目录

ABCNet 导读：使用自适应贝塞尔曲线网络进行进行实时场景文本定位
ABCNet：Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

ABCNet 导读：使用自适应贝塞尔曲线网络进行进行实时场景文本定位

ABCNet：Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

ABCNet，点我下载
CVPR2020收录，在场景文本定位达到最优先进性。

Abstract 摘要

场景文字检测和识别越来越受到研究重视。现行的方法被别粗略的划分成两个类别：基于字符的和基于分割的。这些方法对于字符注释来说是耗费巨大，还得维护一个复杂的过程，对实时应用非常不适合。所以我们提出自适应贝塞尔曲线网络(ABCNet)来解决这个问题。我们的贡献有三个：首次采用参数化的贝塞尔曲线自适应拟合任意形状的文本；我们设计了一种新贝塞尔对齐层，用于提取具有任意形状的文本实例的精确卷积特征，与以前的方法相比，大大提高了精度。与标准的边界盒检测相比，我们的贝塞尔曲线检测引入了微不足道的计算开销，这使得我们的方法在效率和准确性上都具有优势。

在任意形状的基准数据集(Total-Text和CTW1500)上进行的实验表明，ABCNet实现了最新进的精度，同时显著提高了速度。
代码可以在软件包AdelaiDet中找到

介绍

场景文本检测与识别由于在计算机视觉中的广泛应用而受到越来越多的关注。尽管最近取得了巨大的进展[10、41、27、35、26、42]，但由于其在大小、长宽比、字体样式、透视失真和形状等方面的多样性，检测和识别野生文本在很大程度上仍未解决。虽然深度学习的出现极大地提高了场景文本定位任务的性能，但是目前的方法离实际应用中仍然存在相当大的差距，特别是在效率方面。

近年来，许多端到端方法[30,36,33,23,43,20]显著提高了任意形状场景文本定位的性能。然而，这些方法要么使用基于分段的方法来维护复杂的管道，要么需要大量昂贵的字符级标注。此外，几乎所有这些方法推理速度都很慢，妨碍了实时应用程序的部署。因此，我们的动机是设计一个简单而有效的端到端框架，用于在图像中定向或弯曲的场景文本定位[5,26]，它确保了快速的推断时间，同时达到了与最先进方法相媲美甚至更好的性能。

为了实现这一目标，我们提出了自适应贝塞尔曲线网络(ABCNet)，一种端到端的可训练框架，用于任意形状的场景文本识别。ABCNet通过简单而有效的自适应Bezier曲线实现了任意形状的场景文本检测，与标准的矩形边框检测相比，它带来的计算开销可以忽略不计。此外，我们设计了一种新颖的特征对齐层—BezierAlign—来精确计算弯曲形状文本实例的卷积特征，从而在几乎可以忽略计算开销的情况下实现较高的识别精度。我们首次用参数化的贝塞尔曲线表示有向文本或弯曲文本，结果表明了该方法的有效性。我们的定位结果示例如图1所示。

基于分段的结果很容易受到附近文本的影响。非参数非结构化分割结果使得后续识别分支的特征很难对齐。基于分段的结果通常需要复杂的后处理，影响效率。得益于参数化的Bezier曲线表示，我们的ABCNet可以产生结构化的检测区域，因此BezierAlign采样过程可以用来自然地连接识别分支。

请注意以前的方法，如TextAlign[11]和FOTS[24]可以看作是ABCNet的一个特例，因为一个四边形的边界框可以看作是最简单的具有4条直线边界的任意形状的边界框。此外，ABCNet可以避免复杂的转换，如2D注意[19]，使得识别分支的设计更加简单。

我们总结了我们的主要贡献如下：

为了在图像中准确定位有向和弯曲的场景文本，我们首次引入了一种新的简洁的贝塞尔曲线参数表示方法。与标准的边界框表示相比，它引入了微不足道的计算开销。
我们提出了一种采样方法，即BezierAlign，用于精确的特征对齐，因此识别分支可以自然地连接到整个结构。通过共享主干特征，识别分支可以设计成轻量级结构。
我们方法的简单性允许它实时执行推理。ABCNet在Total-Text和CTW1500这两个具有挑战性的数据集上实现了最先进的性能，同时展示了有效性和效率方面的优势。

1.1 相关工作

场景文本定位需要同时关注检测和识别文本，而不只是一个任务。近年来，基于深度学习的方法的出现极大地提高了文本定位的性能。检测和识别的性能都得到了极大的提高。我们将几种具有代表性的基于深度学习的场景文本定位方法归纳为以下两类。图2显示了典型作品的概述。

图2。一些和我们最相关端到端场景文本定位方法概览。在GT(真实)边框里，“W”“R”和“C”分别表示字词级注释、文本内容和字符级注释。“H”、“Q”和“P”表示该方法能够分别检测水平、四边形和任意形状的文本。“RP”表示该方法可以识别四边形框内的弯曲文本。“R”:识别;“BBox”:边界框。虚线框表示该方法无法检测到的文本形状

常规的端到端场景文本定位Li等人提出了第一个基于深度学习的端到端可训练的场景文本定位方法。该方法成功地使用了一个RoI Pooling将检测和识别两阶段框架[34]汇聚到一起，但它只能识别水平和聚焦的文本。它的改进版本[19]显著地改进了性能，但是速度有限。He等人的[11]和Liu等人的[24]采用无锚机制来提高训练和推理速度。他们使用类似的抽样策略，即Text-Align-Sampling和RoI-Rotate分开用于从四边形检测结果中提取特征。注意到这两种方法都不兼容定位任意形状的场景文本。

任意形状的端到端场景文本定位为了检测任意形状的场景文本，Liao等人[30]提出了一种掩码TextSpotter，它巧妙地改进了掩码R-CNN，并使用字符级监督来同时检测和识别字符和实例掩码。该方法显著提高了任意形状场景文本的识别性能。然而，字符级的基本真值是昂贵的，使用免费合成数据很难为真实数据生成字符级的真值。它的改进版本[20]显著地减轻了对字符级ground truth的依赖。该方法依赖于区域建议网络，在一定程度上限制了速度。Sun等人提出了TextNet预先生成四边形检测边界框，然后利用区域建议网络来填充检测特征进行识别。虽然该方法可以直接从四边形检测中识别任意形状的文本，但其性能仍然有限。

最近，Qin等人提出使用RoI掩蔽来聚焦任意形状的文本区域。然而，结果可能很容易受到离群点的影响。此外，分割分支增加了计算负担；拟合多边形过程也引入了额外的时间消耗；分组结果通常是锯齿状的，不平滑的。：[23]的工作是第一个单阶段任意形状的场景文本定位方法，需要字符级真实数据进行训练。[43]的作者提出了一种新的采样方法，RoISlide，它使用来自文本实例的预测片段的融合特征，因此它对长任意形状的文本具有很强的鲁棒性。

2.自适应贝塞尔曲线网络(ABCNet)

ABCNet是一个端到端可训练的场景文本定位框架。在图3中可以看到一个直观的流程。受到[47,37,12]的启发，我们采用了一个单次、无锚定的卷积神经网络作为检测框架。删除锚盒大大简化了我们任务的检测。这里的检测是在输出特征图上进行密集预测，检测由4个叠加的卷积层构成，其中stride为1,padding为1,kernel为3×3。接下来，我们将提出的ABCNet的关键组件的两个部分:1)贝塞尔曲线检测;2) BezierAlign和识别分支。
在这里插入图片描述
图3。本文提出的ABCNet框架。利用贝塞尔曲线检测结果，利用三次贝塞尔曲线和贝塞尔对齐提取曲线序列特征。整体框架具有端到端可训练性，效率高。紫色的点表示三次贝塞尔曲线的控制点。

2.1贝塞尔曲线检测

与基于分段的方法相比[40,44,1,38,45, 28]，基于回归的方法是对任意形状文本检测更直接的解决方案，如[26,42]。然而，以往基于回归的方法需要复杂的参数化预测来拟合文本边界，在实际中对各种文本形状的拟合效率和鲁棒性都不高。

为了简化任意形状的场景文本检测，我们采用回归方法，认为贝塞尔曲线是曲线文本参数化的理想概念。Bezier曲线是以Bernstein多项式[29]为基的参数曲线c(t)。定义如式(1)所示。

$\displaystyle\sum_{i=0}^nb\scriptscriptstyle i \displaystyle B\scriptscriptstyle i \displaystyle(t),0 \le t \le1, \tag{1}$
式中，n为次数， $b\scriptscriptstyle i$ 为第 $i$ 个控制点， $B\scriptscriptstyle i,n \displaystyle (t)$ 为Bernstein基多项式，如式(2)所示:
$B\scriptscriptstyle i,n \displaystyle (t)=\dbinom{n}{i} t^i(1-t)^{n-i},i = 0,...,n, \tag{2}$
式中， $\binom{n}{i}$ 是二项式系数,为了拟合任意形状的文本与贝塞尔曲线，我们全面观察任意形状的场景文本从现有的数据集，在现实世界中，我们经验地证明了一个三次贝塞尔曲线(即 $n$ 为3)，在实际中足以拟合不同种类的任意形状的场景文本。三次贝塞尔曲线的图解如图4所示。
在这里插入图片描述
图4.三次贝塞尔曲线。 $b_i$ 表示控制点。绿色的线形成一个控制多边形，黑色的曲线是三次贝塞尔曲线。注意，只有两个端点 $b_1$ 和 $b_4$ 时，Bezier曲线退化为一条直线。