2018 年 2月随笔档案 - 最难不过二叉树

【深度学习】常用的模型评估指标

摘要：“没有测量，就没有科学。”这是科学家门捷列夫的名言。在计算机科学中，特别是在机器学习的领域，对模型的测量和评估同样至关重要。只有选择与问题相匹配的评估方法，我们才能够快速的发现在模型选择和训练过程中可能出现的问题，迭代地对模型进行优化。本文将总结机器学习最常见的模型评估指标，其中包括： precis 阅读全文

posted @ 2018-02-24 20:45 最难不过二叉树阅读(32068) 评论(3) 推荐(7) 编辑

【深度学习】L1正则化和L2正则化

摘要：在机器学习中，我们非常关心模型的预测能力，即模型在新数据上的表现，而不希望过拟合现象的的发生，我们通常使用正则化（regularization）技术来防止过拟合情况。正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。如果将模型原始的假设空间比作“天空”，那么天空阅读全文

posted @ 2018-02-21 17:44 最难不过二叉树阅读(26313) 评论(0) 推荐(10) 编辑

【深度学习】批归一化（Batch Normalization）

摘要：BN是由Google于2015年提出，这是一个深度神经网络训练的技巧，它不仅可以加快了模型的收敛速度，而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题，从而使得训练深层网络模型更加容易和稳定。所以目前BN已经成为几乎所有卷积神经网络的标配技巧了。从字面意思看来Batch Normaliz 阅读全文

posted @ 2018-02-19 08:50 最难不过二叉树阅读(59245) 评论(3) 推荐(10) 编辑

CNN网络架构演进：从LeNet到DenseNet

摘要：卷积神经网络可谓是现在深度学习领域中大红大紫的网络框架，尤其在计算机视觉领域更是一枝独秀。CNN从90年代的LeNet开始，21世纪初沉寂了10年，直到12年AlexNet开始又再焕发第二春，从ZF Net到VGG，GoogLeNet再到ResNet和最近的DenseNet，网络越来越深，架构越来越阅读全文

posted @ 2018-02-17 13:21 最难不过二叉树阅读(106704) 评论(20) 推荐(47) 编辑

【OCR技术系列之四】基于深度学习的文字识别（3755个汉字）

摘要：上一篇提到文字数据集的合成，现在我们手头上已经得到了3755个汉字（一级字库）的印刷体图像数据集，我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别，用的网络当然是CNN，那具体使用哪个经典网络？VGG?RESNET？还是其他？我想了下，越深的网络训练得到的模型应该会更阅读全文

posted @ 2018-02-11 20:08 最难不过二叉树阅读(95567) 评论(119) 推荐(26) 编辑

【OCR技术系列之三】大批量生成文字训练集

摘要：放假了，终于可以继续可以静下心写一写OCR方面的东西。上次谈到文字的切割，今天打算总结一下我们怎么得到用于训练的文字数据集。如果是想训练一个手写体识别的模型，用一些前人收集好的手写文字集就好了，比如中科院的 "这些数据集" 。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型，那么我们就需要各种阅读全文

posted @ 2018-02-09 21:07 最难不过二叉树阅读(37038) 评论(21) 推荐(18) 编辑

冠军的试炼

悟已往之不谏，知来者之可追

02 2018 档案

公告