评估统计算法在银行伪造钞票检测中的价值
数据科学项目
“评估统计算法在银行伪造钞票检测中的价值”
by 吴同学
目的
这个数据科学项目的目的是提出一种可靠的算法,以便通过光学扫描仪或类似工具,银行可以区分“真钞”和“伪造”钞票。一般来说,光学扫描仪会检测每张钞票的某些特征,并将它们发送到一个算法,该算法将建议将钞票分类为“真钞”或“伪造钞票”。然后,“伪造”的钞票将退出流通。
我们的建议是使用一种称为“k-means聚类”的技术的统计算法。
数据说明
为了评估这是否是分离钞票的好方法,我们对 1372 张钞票样本进行了测试,这些样本取自 OpenML 网站,由于其尺寸很大,这对我们来说似乎是一个很好的样本。该样本包含从每张钞票(V1 和 V2)中获取的 2 个特征,这些特征实际上是从真伪和伪造的类似钞票的样本中提取的图像中提取的。
图1 - 原始数据
如示例数据描述中所述,对于数字化,使用了通常用于印刷检查的工业相机。最终图像具有 400x 400 像素。由于物镜和与被研究物的距离,获得了分辨率约为660 dpi的灰度图像。使用一种特殊的工具(称为“小波变换”)从图像中提取特征。
方法:如何分析数据
首先通过描述性统计(例如平均值、标准差、最大值、最小值)分析数据,以了解样本特征。然后,我们绘制了结果。
图2 - 原始数据散点图
之后,我们还使用了一种称为“最小-最大标准化”的技术,以便为分析适当缩放数据。
最后,我们对数据运行了 2 均值算法,以分析它是否能够区分真钞和伪造钞票的 2 簇。我们运行了几次以评估其整体稳定性。
图3 - 数据2均值聚类
这种方法的强度和局限性
我们分析的主要优点是所使用的算法非常容易实现,并且快速高效。我们分析的局限性在于,我们假设样本数据代表了流通中的纸币(包括真钞和伪造钞票)的总体数量。此外,据我们所知,该样本是在 2012 年收集的。过去 11 年的技术进步可能会改变样品的可靠性。
在建模方面,我们使用了 k - means聚类技术,因为它看起来适合这种分析,尽管可能已经实现了其他有用的技术,例如 DBSCAN 聚类。进一步的分析可能会尝试比较这两种方法,以评估哪一种似乎更好。
结果摘要
最后,我们将模型预测与观察数据中的实际钞票分类进行了比较。该模型最终的预测成功率为 87%,这绝对比随机猜测要好。
因此,我们建议使用此算法来自动检测伪造钞票