ALPR
在无约束场景下的车牌检测与识别
摘要:尽管大量的商用和学术方法都是自动车牌识别(ALPR),但大多数现有的方法都集中在特定的车牌(LP)区域(例如欧洲,美国,巴西,台湾等),以及 经常探讨包含近似正面图像的图像。 这项工作提出了一个完整的ALPR系统,专注于无约束的捕获场景,其中LP可能由于倾斜视图而严重失真。我们的主要贡献是引入了一种新颖的卷积神经网络(CNN),能够在单个图像中检测和校正多个失真的牌照,并将其转换为光学字符识别(OCR)方法以获得最终结果。作为额外的贡献,我们还针对来自不同区域和采集条件的一组具有挑战性的LP图像进行了手动注释。 我们的实验结果表明,所提出的方法,在没有任何参数适应或针对特定场景的情况下,与传统场景中的最先进的商业系统表现相似,并且在具有挑战性的方法中优于学术和商业方法。
1介绍
介绍几种与交通相关的应用,例如被盗车辆的检测,收费控制和停车场访问验证涉及车辆识别,其由自动车牌识别(ALPR)系统执行。 并行处理和深度学习(DL)的最新进展有助于改进许多计算机视觉任务,例如物体检测/识别和光学字符识别(OCR),这显然有利于ALPR系统。 事实上,深度卷积神经网络(CNNs)已经成为应用于车辆和车牌(LP)检测的领先机器学习技术[18,28,19,3,2,9,31,17]。 除了学术论文,一些商业ALPR系统也在探索DL方法。 它们通常分配在庞大的数据中心,通过网络服务工作,能够每天处理数百万张图像并不断改进。以这些系统为例,我们可以提到Sighthound (https://www.sighthound.com/)、OpenALPR的商业版本(http://www.openalpr.com/)和Ama-zon reko(https://aws.amazon.com/rekognition/)。

图1:建议评估数据集中存在的具有挑战性的倾斜牌照的例子。
尽管在最先进的技术方面取得了进步,但大多数ALPR系统主要假设车辆和LP的正面视图,这在应用中很常见,如收费监控和 例如,停车场验证。 然而,更多放松的图像采集场景(例如,执法人员与移动摄像头或智能手机一起行走)可能会导致倾斜视图,其中LP可能会高度扭曲但仍然可读,如图1所示,并且无论哪个状态如此。
在这项工作中,我们提出了一个完整的ALPR系统,可以在各种场景和摄像机设置中表现良好。 我们的主要贡献是引入了一种新型网络,能够在许多不同的摄像机姿势中检测LP并估计其失真,从而允许在OCR之前进行校正处理。 另外一个贡献是大量使用合成扭曲版本的真实图像来增强训练数据集,允许网络从头开始使用少于200个手动标记的图像。所提出的网络和数据增强方案还导致灵活的ALPR系统能够使用相同的系统参数化成功检测和识别独立测试数据集中的LP。我们还推广了现有的针对巴西LP开发的OCR方法[28]。基本上,我们重新使用类似于目标区域字体类型的真实数据和人工生成数据混合组成的新训练集来训练他们的OCR网络。 因此,经过重新训练的网络在原始的Braziliansce-nario中对真实角色的检测和分类变得更加强大,而且对于欧洲和台湾的LP也变得非常强大,实现了非常高的精确度和召回率。用于此项工作的所有注释数据都是公开可用的1,参考图像可以通过下载汽车数据集[16],SSIG数据库[6]和AOLP数据集[10]来获得.
1 Available athttp://www.inf.ufrgs.br/∼crjung/alpr-datasets.
这项工作的其余部分安排如下。在第二节中,我们简要回顾了ALPR的相关方法。该方法的细节在第3节给出,我们描述了LP检测和解扭曲网络,以及用于训练我们的模型的数据增强过程。第4节给出了总体评价和最终结果。最后,第五部分总结了我们的结论,并对未来的工作提出了展望。
2 相关的工作
ALPR是查找和识别图像中的牌照的任务。 它通常分为四个子任务,形成一个连续的管道:车辆检测,车牌检测,字符分割和字符识别。为简单起见,我们将最后两个子任务组合为OCR. 在过去已经提出了许多不同的ALPR系统或相关子任务,通常使用图像二值化或灰度分析来找到候选提案(例如LP和字符),然后是手工制作的特征提取方法和经典的机器学习分类器[1,4]。 随着DL的兴起,最先进的技术开始向另一个方向发展,现在由于其通用物体检测和识别的高精度,许多工厂采用CNN [23,24,21,25,8,11]。
与ALPR相关的问题有场景文本定位(STS)和野外数字读取(例如从谷歌街景图像[22])问题,这些目标是自然场景中的目标和阅读文本/数字。 尽管ALPR可以被视为场景文本定位STS的一个特例,但这两个问题具有特殊的特征:在ALPR中,我们需要学习没有语义信息的字符和数字(没有太多的字体变量),而STS则专注于包含高字体变异性的文本信息。并且可能在[30]中探索词汇和语义信息。 数字读取不提供语义信息,但仅处理数字比ALPR上下文简单,因为它避免了例如B-8,D-0,1-I,5-S等常见的数字/字母混淆。
作为这项工作的主要贡献是一个新颖的LP检测网络,本节通过回顾基于DL的特定子任务的方法,以及一些可以处理失真文本并可用于LP检测的STS方法。 接下来,我们将完成基于ALPR DL的系统.
2.1车牌检测
YOLO网络的成功[23,24]启发了许多近期的工作,针对LP检测的实时性能[28,9,31,17]。 Hsu等人使用YOLO [23]和YOLOv2 [24]网络的略微修改版本。 [9],作者扩大了网络输出粒度以改善检测次数,并设置了两个类(LP和背景)的概率。他们的网络在精确度和召回率之间取得了很好的折衷,但是论文缺乏对提取的边界框的详细评估。 而且,大家都知道,YOLO网络很难检测到小型物体,因此需要对汽车远离摄像机的情况进行评估。
在[31]中,设计了两个基于YOLO的网络,目的是检测旋转的LPs。第一网络用于找到包含LP的区域,称为“注意模型”,第二网络捕获LP的旋转的矩形边界框。 尽管如此,他们只考虑了平面转向,而不是由倾斜的摄像机视图引起的更复杂的变形,如图1所示。另外,由于它们没有提供完整的ALPR系统,因此难以评估OCR的好坏程度。
在文献[3,2,27]中也可以找到使用滑动窗口方法或与CNN耦合的候选滤波的车牌探测器。然而,由于不共享计算,它们往往计算效率低,就像在现代物体检测元体系结构中一样,例如YOLO, SSD [21] andFaster R-CNN [25]。
虽然场景文本识别( STS )方法主要集中在大的字体变化和词汇/语义信息上,但是在处理旋转/扭曲文本的一些方法中值得一提,并且可以在倾斜视图中探索LP检测。贾德尔伯格和他的同事[ 13 ]提出了一种基于人工神经网络的自然场景文本识别方法,使用完全合成的数据来训练模型。尽管结果很好,但他们强烈依赖于N-Grams,这不适用于ALPR。古普塔等人 [ 7 ]还探索了合成数据集,将文本真实地粘贴到真实图像中,主要侧重于文本定位。输出是一个围绕文本的旋转边界框,它发现ALPR场景中常见的离面旋转的限制。
最近,王等人[ 29 ]提出了一种在各种几何位置检测文本的方法,称为实例转换网络。它基本上由三个CNN组成:计算特征的主干网络,在特征图中假设存在文本的情况下推断仿射参数的变换网络,以及通过根据仿射参数对特征进行采样而构建输入的最终分类网络。虽然这种方法(理论上)可以处理离面旋转,但它不能正确地将实际将文本区域映射到矩形的变换转换,因为文本周围没有物理(或清晰的心理)边界区域(应该映射到无失真视图中的矩形)。在ALPR中,LP是由直角和平面构造的,我们探索这些信息来回归变换参数,详见第3.2
2.2完整的ALPR方法
西尔瓦和容格·[ 28 ]和拉罗卡等人 [ 17 ]提出了基于一系列改进的YOLO网络的完整ALPR系统。[使用了两个不同的网络,一个用于联合检测汽车和车牌,另一个用于执行OCR.。[总共使用了五个网络,基本上每个ALPR子任务一个,字符识别两个。两者都报道了实时系统,但是他们只关注巴西车牌,没有训练适应变形,只有正面和近似矩形的车牌。
Selmi等人[ 27 ]使用了一系列基于形态学算子、高斯滤波、边缘检测和几何分析的预处理方法来寻找LP候选和特征。然后,使用两种不同的CNNs ( I ) 将一组候选LP图像分类为一个正样本;和( ii )识别分段字符。该方法只处理单一的LP图像,据作者说,失真的LPs和较差的光照条件会影响性能。
Li等人[ 19 ]提出了一个基于更快的R-CNN的网络。很快,RPN被分配来寻找候选车牌区域,其相关的特征图被RoI池层裁剪。然后,将这些数据输入网络的最后一部分,该部分计算是否为LP的概率,并通过递归神经网络执行OCR。尽管前景看好,但作者给出的评估显示,在包含倾斜车牌的最具挑战性的场景中,性能很差。
商业系统是最先进技术的很好的参考点。虽然它们通常只提供部分(或不提供)关于其架构的信息,但是我们仍然可以使用它们作为黑盒子来评估最终的输出。如第1节所述,示例包括Sighthound、OpenALPR (NVIDIA在Metropolis platform的官方合作伙伴)和Amazon reko(Amazon reko,根据公司的通知,这是一个通用的AI引擎,包括文本检测和识别模块,可用于LP识别)。
3提议的方法
提议的方法由三个主要步骤组成:车辆检测、车牌检测和光学字符识别,如图2所示。给定输入图像,第一模块检测场景中的车辆。在每个检测区域内,所提出的扭曲平面目标检测网络( WPOD-NET )搜索车牌,并在每个检测中进行一次仿射变换,从而允许将车牌区域校正为类似于正视图的矩形。这些正的和校正的检测被输入到一个OCR网络中进行最终的字符识别。

3.1车辆检测
由于车辆是许多经典检测和识别数据集中存在的基础对象之一,例PASCAL-VOC [5], ImageNet [26], andCOCO [20],,我们决定不从头开始训练检测器,而是选择已知模型来执行车辆检测,只考虑几个标准。一方面,期望高召回率,因为任何有可见车牌的车辆被漏检都会直接导致整体车牌漏检。另一方面,高精度也需要保持低运行时间,因为每一个错误检测的车辆必须通过wpod - net进行验证。基于这些考虑,我们决定使用YOLOv2网络,因为它执行速度快(大约70 FPS),并且具有良好的精度和召回折衷(在PASCAL-VOCdataset上映射76.8%)。我们没有对YOLOv2执行任何更改或改进,只是将网络用作一个黑盒子,合并与车辆(即轿车和公共汽车)相关的输出,忽略其他类。
NVIDIA platform for video analysis in smart cities (https://www.nvidia.com/en-us/autonomous-machines/intelligent-video-analytics-platform/).
然后将正类检测结果调整大小,然后将其输入WPOD-NET。根据经验,较大的输入图像允许检测较小的对象,但会增加[12]的计算成本。在大致的正面/背面视图中,车牌(LP)大小和车辆边界框(BB)之间的比率很高。然而,对于斜/横向视图,这一比例往往是更小的,因为车辆bb趋于更大和更长的。因此,为了保持LP区域的可识别性,斜视图的尺寸应该比正视图大。
虽然如[32]的三维姿态估计方法,可以用来确定调整规模,这项工作提出了一个简单和快速、基于车辆边界框(BB)长宽比的程序。当长宽比接近1时,可以使用较小的维度,并且维度必须随着长宽比的增大而增大。更精确地说,调整因子fsc给出如下:

其中Wv和Hv分别为车辆边界框的宽度和高度。注意Dmin≤fsc min(Wv, Hv)≤Dmax,因此Dmin和Dmax划定了调整尺寸车辆边界框的最小尺寸范围。基于实验,并试图在精度和运行时间之间保持良好的折衷,我们选择了Dmin= 288和dmax = 608
- resize已经检测出的车辆
-
在resize图片采用了如下思路:
在车牌无倾角时,往往车牌有足够的像素用于车牌识别,但是车辆照片有倾斜度时,车牌和车辆比例会减小不少,这不利于车牌的提取。 基于此,作者使用此思路来提高,在车辆照片有角度时,放大图片,以放大车牌像素。而在车辆照片像素本来就很大时,采用了Max=608做了相应的缩小。
- 参考代码 【以下代码是公式的实现】:
- 双* 号是指数操作
- 双冒号代表list中取元素位置和步长。
- 同时,代码中做了 对16可整除的对齐操作(为适配后面WpodNet卷积)
3.2车牌检测与解卷
车牌本质上是矩形和平面的物体,是为了识别车辆而被标记的。为了充分利用其形状特点,我们提出了一种新型的CNN结构——扭曲平面目标检测网络(wpod)。
这个网络学会了在各种不同的失真中检测LPs,并且回归仿射变换的系数,仿射变换将失真的LPs“解映射”成类似正视图的矩形。虽然可以学习平面透视投影而不是仿射变换,但是透视变换中涉及的除法可能会在分母中产生小值,从而导致数值不稳定。
WPOD-NET是利用YOLO、SSD和空间变压器网络( STN) [14]的见解开发的YOLO、SSD同时执行快速的多目标检测和识别,但它们没有考虑空间变换,每次检测只生成矩形边界框。相反,STN可以用于检测非矩形区域,但是它不能同时处理多个变换,只能在整个输入上执行一个空间变换。

图3平面物体的完全卷积检测(裁剪以获得更好的视觉化)。
利用wpod - net进行检测的过程如图3所示。最初,将车辆检测模块调整大小的输出喂进网络。前馈产生一个8通道特征图,该特征图编码了对象/非对象概率和仿射变换参数。为了提取扭曲的车牌,让我们首先考虑一个固定大小的假想正方形,这个正方形围绕一个 ( m,n ) 单元中心。如果该单元的目标概率高于给定的检测阈值,则部分回归参数被用于构建仿射矩阵,该仿射矩阵将虚拟正方形转换成一个车牌区域。因此,我们可以很容易地将车牌解扭曲成水平和垂直对齐的对象。
网络架构 该体系结构共有21个卷积层,其中14个位于[ 8 ]剩余区块(残差网络)内。所有卷积核的尺寸固定在3×3。ReLU激活用于除了检测块之外的整个网络。有4个大小为2×2、步长为2的最大池化层,可将输入维度减少16倍。最后,检测块具有两个并行卷积层: ( I )一个用于推断概率,由softmax函数激活,以及( ii )另一个用于回归仿射参数,而不激活(或者,等效地,使用恒等式F(x ) = x作为激活函数)。

损失函数 让pi= [xi, yi]T,对于i= 1,,4,表示注释车牌的四个角,从左上角开始顺时针方向。同样,让q1 = [- 0.5,-0.5 ]T,q2= [0.5,-0.5 ]T,q3= [0.5,0.5 ]T,q4 = [ -0.5,0.5 ]T指定以原点为中心的标准单位正方形的对应顶点。
对于具有高度H和宽度W的输入图像,以及由Ns = 2^4(16)(四个最大池化层)给出的网络步幅,网络输出特征图由一个M×N×8体积组成,其中M = H / Ns和N = W / Ns。 对于特征映射中的每个点单元(m,n),有八个值要估计:前两个值(v1和v2)是对象/非对象概率,后六个值(v3到v8)用于构建局部仿射变换 Tmn,给出如下:

- 其中q是基于原点的单位矩阵。
- max(v, 0) 是仿射变换数学性质中保证没有异常的镜像和旋转。
- v3,v4,v5,v6 负责形状变换,v7,v8是bias负责少量平移
-
其中v3和V6使用的最大函数用于确保数据为正(避免不希望的镜像或过度旋转)。
为了匹配网络输出分辨率,点Pi被网络步长的倒数重新缩放,并根据特征图中的每个点( m,n )重新居中。这是通过应用归一化函数来实现的。

- 其中p是gt,是标注车牌的8个点。
- Ns 是缩放因子,如果网络是4层最大池化,Ns = 2 ** 4 = 16
- m和n是原图经过特征提取后得到的特征图cell。
- a 是经验参数,目的是将按照特征图比例缩放和平移后的 车牌形状能更加贴近缩放到单位矩阵尺寸的车牌大小。
假设在单元( m,n )有一个对象( LP ),损失函数的第一部分考虑规范化正方形的变形版本和LP的规范化注释点之间的误差,由下式给出:

利于仿射参数和特征图格子,通过仿射变换和平移构造单位尺度车牌,对等相减实现loss设计。
损失函数的第二部分处理在( m,n )处 有/没有对象的概率。它类似于SSD置信损失[ 21 ],基本上是两个对数损失函数的总和

IIobj是一个对象指示器函数,如果在点( m,n )有一个对象,则返回1,否则返回0,logloss(y,p ) = -ylog ( p )。如果一个对象的矩形边界框呈现的IoU大于阈值γobj (根据经验设置为0.3 ),则该对象被视为位于一个点( m,n )里面,而另一个边界框具有相同的大小,以( m,n )为中心
最终的损失函数由定义的不等式组合给出。( 4 )和( 5 ):

全局loss由两部分构成,有无对象置信度loss和仿射变换参数loss。
训练细节 为了训练候选框的WPOD-NET,我们创建了一个包含196幅图像的数据网络,其中105幅来自汽车数据集,40幅来自SSIG数据集(训练子集),51幅来自AOLP数据集( LE子集)。对于每张图片,我们手工标注了图片中LP的4个角(有时不止一个)。从汽车数据集中选择的图像主要包括欧洲的车牌,但也有许多来自美国以及其他车牌类型。来自SSIG和AOLP的图像分别包含巴西和台湾的LPs。图5中显示了几个注释样本。

鉴于训练数据集中带注释图像的数量减少,使用数据增强至关重要。使用以下增强变换:
–校正: 基于LP注释校正整个图像,假设LP在一个平面上;
–纵横比: LP纵横比在[ 2,4 ]区间内随机设置,以符合不同区域的尺寸;
-- 中心:LP中心成为图像中心;
- 缩放:缩放LP,使其宽度与40像素208像素之间的值相匹配(根据LP的可读性进行实验设置)。 该范围用于定义方程式中使用的α的值。(3);
-- 旋转:执行具有随机选择角度的3D旋转,以计算各种摄像机设置;
-- 镜像:50%几率;
-- 翻译:将LP从图像中心移动,限制在中心周围208×208像素的正方形内;
--裁剪:考虑到平移前的LP中心,我们在它周围裁剪208×208区域;
–色彩空间: HSV色彩空间的轻微修改;;
- 注释: 通过应用用于增强输入图像的相同空间变换来调整四个LP角的位置。
从上述选择的变换集合中,可以从单个手动标记的样本获得具有非常不同的视觉特性的各种各样的增强测试图像。 例如,图6示出了从相同图像获得的20个不同的增强样本。

图6:对 红色四边形表示变换后的LP注释
我们使用ADAM优化器[ 15 ]对网络进行了100次规模为32的小批量迭代训练。学习率设置为0.001,参数β1 = 0.9,β2 = 0.999。通过从训练集中随机选择和增加样本产生小批量,每次迭代产生大小为32×208×208×3的新输入张量
3.3 OCR
使用修改的YOLO网络执行校正车牌上的字符分割与识别, [28]中提出了相同的体系结构。然而,在这项工作中,训练数据集通过合成和增强数据得到了相当大的扩展,以应对世界各地(欧洲,美国和巴西)不同地区的LP特征.

人工创建的数据包括将一串七个字符粘贴到纹理背景上,然后执行随机转换,如旋转、平移、噪声和模糊。图7显示了一些生成的样本和合成数据生成管道的简要概述。如第4节所示,合成数据的使用有助于极大地提高网络的泛化能力,从而使完全相同的网络在世界不同地区的LPs中表现良好。
3.4评价数据集
我们的目标之一是开发一种技术,它在各种不受约束的场景中表现良好,但在受控制的场景中也能很好地工作(比如大部分正面视图)。因此,我们选择了四个在线提供的数据集,即OpenALPR(BR和EU)4,SSIG和AOLP(RP),它们涵盖了许多不同的情况,如表1的第一部分所述。我们考虑了三个不同的变量:LP角度(正面和倾斜) ,从车辆到相机(近,中,远)的距离,以及拍摄照片的区域。

目前在LP失真方面使用的更具挑战性的数据集是AOLP Road Patrol(RP)子集,它试图模拟将一个摄影机安装在巡逻车辆中或由人手持的情况.I从相机到车辆的距离来看,SSIG数据集似乎是最具挑战性的。它由高分辨率图像组成,使得来自远处车辆的车牌仍然可读。它们中没有一个同时呈现来自多个(同时)车辆的视频。
尽管所有这些数据库一起涵盖了许多情况,但据我们所知,在文献中缺乏更通用的具有挑战性图像的数据集。因此,这项工作的另一个贡献是对从汽车数据集中选择的一组新的102幅图像(命名为CD-HARD)的手动注释,涵盖了各种具有挑战性的情况。我们选择的大多数图像都有很强的LP失真,但对人类来说仍然是可读的。这些图像中的一些(LP区域周围的作物)如图1所示,它被用来激发这项工作中解决的问题。
4实验结果
本节包括对我们的全ALPR系统的实验分析,以及与其他最先进的方法和商业系统的比较。不幸的是,大多数学术ALPR论文集中在特定的场景上(例如,单个国家或地区、环境条件、摄像机位置等)。因此,文献中有许多分散的数据集,每一个数据集都由一个方法子集来评估。此外,许多论文只关注于车牌检测或字符分割,这进一步限制了全ALPR流水线的比较可能性。在这项工作中,我们使用了四个独立的数据集来评估该方法在不同场景和区域布局中的准确性。我们还展示了与商业产品和报纸的比较,展示了完整的ALPR系统。
所提出的方法提出了三个管道网络,我们为其设置了以下接受阈值: 0.5用于车辆(YOLOv2)和LP (wpd - net)检测,0.4用于字符检测和识别(OCR-NET)。此外,值得注意的是,字符“I”和“1”对于巴西LPs是相同的。因此,在评估OpenALPR BR和SSIG数据集时,它们被视为一个单独的类。对光学字符识别模块产生的结果没有应用其他启发式或后处理。
我们根据正确识别的LP的百分比来评估系统,如果所有字符都被正确识别,并且没有检测到其他字符,则认为LP是正确的。需要注意的是,完全相同的网络适用于所有数据集:没有使用特定的训练程序来调整给定类型LP (例如欧洲或台湾)的网络。管道中执行的唯一轻微修改是针对AOLPRoadPatrol数据集。在这个数据集中,车辆离摄像机非常近(在一些情况下导致车辆检测器失效),因此我们直接将LP检测器 (WPOD-NET )应用于输入图像。
为了展示在OCR-NET训练过程中包含完全合成数据的好处,我们使用两组训练数据来评估我们的系统: ( I ) 实际增加的数据加上人工生成的数据;(ii)只有真实的增强数据。

这两个版本分别在表2中用“Ours”和“Ours(no artf。)”表示。可以观察到,添加完全合成的数据提高了所有测试数据集的准确性( AOLP RP数据集的增益约为5 % )。此外,为了突出纠正检测边界框的改进,我们还提供了使用常规非矫正边界框的结果,在表2中标识为“ Ours (unrect.)”。不出所料,结果在大部分前沿数据集上并不明显(对于ALPR-EU来说甚至稍好一些),但是在具有挑战性问题的数据集(AOLP-RP和提议的CD-HARD)上有相当大的准确性下降。
表2还显示了竞争(商业和学术)系统的结果,表明我们的系统在代表更受控制的场景的数据库中达到了与商业系统相当的识别率,其中LPS是正面的(开放欧盟和巴西地理信息系统)。更准确地说,这是OpenALPR数据集中的第二好方法,也是SSIG中的第一好方法。然而,在具有挑战性的场景中(AOLP RP和提议的CD-HARD数据集),我们的系统比所有比较方法都有显著的提高(与第二好的结果相比,准确率提高了7 %以上)。
值得一提的是,Li等[18,19]、Hsu等人的[10]和laroca等人的[17]的工作都集中在单一的区域或数据集上。通过优于它们,我们展示了很强的泛化能力。同样重要的是,对于最具挑战性的数据集( AOLP-RP和CD-HARD ),完整的LP识别率高于直接将光学字符识别模块应用于标记的矩形LP边界框( AOLP-RP为79.21 %,CD-HARD为53.85 % )。这一增益是由于WPOD-NET允许的解扭,当LP被严重失真时,这极大地帮助了光学字符识别任务。为了说明这种行为,我们在图8中显示了图1中图像的检测到的和未检测到的LPs,以及光学字符识别网络产生的最终识别结果。右上角LP的检测分数低于接受阈值,说明了一个错误的否定例子

所提出的WPOD - NET是使用TensorFlow框架实现的,而最初的YOLOv2车辆检测和OCR-NET是使用暗网框架创建和执行的。一个Python包装器被用来集成这两个框架。用于我们实验的硬件是一个英特尔至强处理器,有12Gb的内存和一个英伟达泰坦X图形处理器。通过这种配置,我们能够以平均5FPS (考虑所有数据集)运行整个ALPR系统。这一时间高度依赖于在输入图像中检测到的车辆数量。因此,增加车辆检测阈值将导致更高的FPS,但召回率更低
5结论与未来工作
在这项工作中,我们提出了一个完整的深度学习ALPR系统,用于非限制场景。我们的结果表明,所提出的方法在具有挑战性的数据集上远远优于现有的方法,包含在强倾斜视图中捕获的LPs,同时在更受控制的数据集上保持良好的结果。
这项工作的主要贡献是引入了一种新的网络,通过为每个检测单元生成一个仿射变换矩阵,可以检测和消除失真的LPs。这一步减轻了光学字符识别网络的负担,因为它需要处理较少的失真。
作为一个额外的贡献,我们提出了一种新的具有挑战性的数据集,用于评估以倾斜LPs为主的捕获中的ALPR系统。数据集的注释将公之于众,以便数据集可以用作新的具有挑战性的LP基准。
对于未来的工作,我们希望扩展我们的解决方案来检测摩托车LPs。由于长宽比和布局的不同,这带来了新的挑战。此外,我们打算探索交通监控场景中自动相机校准问题所获得的仿射变换。
鸣谢。作者要感谢资助机构亚太区和国家印刷质量委员会,以及英伟达公司捐赠了一台泰坦XPascal图形处理器。
-
双* 号是指数操作
双冒号代表list中取元素位置和步长。
同时,代码中做了 对16可整除的对齐操作(为适配后面WpodNet卷积)


浙公网安备 33010602011771号