05 2020 档案
摘要:本节主要讲解如何使用集成学习来提高预测的精度 ###集成学习方法 在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法于具体验证集划分联系密切。 由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许,建
阅读全文
摘要:一个成熟合格的深度学习训练过程至少具备以下功能: 在训练集上训练,并在验证集上进行验证 模型可以保存最优的权重,并读取权重 记录训练集和验证集的精度,便于调参 本节将构建验证集、模型训练和验证、模型保存与加载和模型调参等几个部分 ###构造验证集 在机器学习模型(特别是深度学习模型)的训练过程中,模
阅读全文
摘要:这一节主要开始构建一个字符识别模型,基于赛题理解,本章将构建一个定长多字符分类模型 工欲善其事必先利其器,首先来了解下pytorch与TensorFlow。(本比赛主要用到pytorch框架用于解决这个问题) ###PyTorch基本结构 pytorch主要分为以下几个模块来训练模型: tensor
阅读全文
摘要:###图像读取 ####1、Pillow(python图像处理库(Python Imaging Library),简称:PIL):参考 #####用途 图像档案 python图像库是图像存档和批处理应用程序的理想选择。可以使用该库创建缩略图、在文件格式之间转换、打印图像等 图像显示 当前版本(7.0
阅读全文
摘要:街景字符识别以计算机视觉中字符识别为背景,对真实场景下的字符进行预测识别。本篇主要对数据的理解,包括对数据的读取以及根据标签数据对字符进行分割 1、赛题数据 赛题数据源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, "SVHN"
阅读全文
摘要:Logistic回归 通常用于估计一个实例属于某个特定类别的概率,例如,电子邮件是垃圾邮件的概率是多少 概率估计 Logistic回归模型计算输入特征的加权和(加上偏差项),将结果输入 Logistic() 函数进行二次加工后进行输出 逻辑回归模型的概率估计(向量形式): $$\hat{p}=h_\
阅读全文
摘要:降低模型的过拟合的好方法就是 正则化 这个模型(即限制它):模型有越少的自由度,就越难拟合数据。例如,正则化一个多项式模型,一个简单的方法就是减少多项式的阶数。 对于线性模型,正则化的典型实现就是约束模型中参数的权重。这里介绍三种不同约束权重的方法:Ridge回归,Lasso回归和Elastic N
阅读全文
摘要:交叉验证 交叉验证可以用来估计一个模型的泛化能力,如果一个模型在训练集上表现良好,通过交叉验证指标却得出其泛化能力很差,那么模型就是 过拟合 了;如果这两个方面表现的都不好,那么它就是 欠拟合 了,这个方法可以告诉我们,模型是太复杂还是太简单了 观察学习曲线 另一种方法就是观察学习曲线,画出模型在训
阅读全文
摘要:线性模型可以拟合线性问题,这是毋庸置疑的,但实际中处理的数据往往比直线更加复杂的非线性数据。这时,依然可以尝试使用线性模型来解决这个问题。 对每个特征进行加权后作为新的特征,然后在这个扩展的数据集上训练线性模型 啥意思呢,举个例子: 假设函数为: $$h_\theta(x)=\theta_0+\th
阅读全文
摘要:梯度下降是一种非常通用的优化算法,它能够很好的处理一系列问题。随机梯度下降的整体思路就是通过迭代来逐渐调整参数使得损失函数达到最小值 线性回归预测模型(向量形式) $$\hat{y} =h_\theta(x)=\theta^T \cdot x$$ $\theta表示模型的参数向量包括偏置项\thet
阅读全文