02 2018 档案

摘要:“没有测量,就没有科学。”这是科学家门捷列夫的名言。在计算机科学中,特别是在机器学习的领域,对模型的测量和评估同样至关重要。只有选择与问题相匹配的评估方法,我们才能够快速的发现在模型选择和训练过程中可能出现的问题,迭代地对模型进行优化。本文将总结机器学习最常见的模型评估指标,其中包括: precis 阅读全文
posted @ 2018-02-24 20:45 最难不过二叉树 阅读(32068) 评论(3) 推荐(7) 编辑
摘要:在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况。正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。如果将模型原始的假设空间比作“天空”,那么天空 阅读全文
posted @ 2018-02-21 17:44 最难不过二叉树 阅读(26313) 评论(0) 推荐(10) 编辑
摘要:BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题,从而使得训练深层网络模型更加容易和稳定。所以目前BN已经成为几乎所有卷积神经网络的标配技巧了。 从字面意思看来Batch Normaliz 阅读全文
posted @ 2018-02-19 08:50 最难不过二叉树 阅读(59245) 评论(3) 推荐(10) 编辑
摘要:卷积神经网络可谓是现在深度学习领域中大红大紫的网络框架,尤其在计算机视觉领域更是一枝独秀。CNN从90年代的LeNet开始,21世纪初沉寂了10年,直到12年AlexNet开始又再焕发第二春,从ZF Net到VGG,GoogLeNet再到ResNet和最近的DenseNet,网络越来越深,架构越来越 阅读全文
posted @ 2018-02-17 13:21 最难不过二叉树 阅读(106704) 评论(20) 推荐(47) 编辑
摘要:上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更 阅读全文
posted @ 2018-02-11 20:08 最难不过二叉树 阅读(95567) 评论(119) 推荐(26) 编辑
摘要:放假了,终于可以继续可以静下心写一写OCR方面的东西。上次谈到文字的切割,今天打算总结一下我们怎么得到用于训练的文字数据集。如果是想训练一个手写体识别的模型,用一些前人收集好的手写文字集就好了,比如中科院的 "这些数据集" 。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型,那么我们就需要各种 阅读全文
posted @ 2018-02-09 21:07 最难不过二叉树 阅读(37038) 评论(21) 推荐(18) 编辑