07 2018 档案

摘要:一、基础 疑问1:具体使用算法时,怎么通过精准率和召回率判断算法优劣? 根据具体使用场景而定: 疑问2::有些情况下,即需要考虑精准率又需要考虑召回率,二者所占权重一样,怎么中欧那个判断? 方法:采用新的评价标准,F1 Score; 二、F1 Score F1 Score:兼顾降准了和召回率,当急需 阅读全文
posted @ 2018-07-31 14:29 何永灿 阅读(3443) 评论(0) 推荐(0) 编辑
摘要:一、实例 1)构造极度偏差的数据 import numpy as np from sklearn import datasets digits = datasets.load_digits() X = digits.data y = digits.target.copy() # 构造极度偏斜的数据 阅读全文
posted @ 2018-07-31 11:24 何永灿 阅读(877) 评论(0) 推荐(0) 编辑
摘要:一、分类精准度的缺陷 1)评论算法的好坏 回归问题:MSE、MAE、RMSE、R^2(以为最好的标准); 分类问题:分类准确度(score() 函数); 分类算法的评价要比回归算法的评价标准复杂的多; 评论分类算法好坏的指标,有多种,具体选择评价指标时要根据数据和应用场景而定; 2)分类准确度类评价 阅读全文
posted @ 2018-07-30 16:19 何永灿 阅读(1539) 评论(0) 推荐(0) 编辑
摘要:一、基础理解 问题:逻辑回归算法是用回归的方式解决分类的问题,而且只可以解决二分类问题; 方案:可以通过改造,使得逻辑回归算法可以解决多分类问题; 改造方法: 改造方法不是指针对逻辑回归算法,而是在机器学习领域有通用性,所有二分类的机器学习算法都可使用此方法进行改造,解决多分类问题; 二、原理 1) 阅读全文
posted @ 2018-07-30 12:12 何永灿 阅读(9432) 评论(0) 推荐(2) 编辑
摘要:一、基础理解 使用逻辑回归算法训练模型时,为模型引入多项式项,使模型生成不规则的决策边界,对非线性的数据进行分类; 问题:引入多项式项后,模型变的复杂,可能产生过拟合现象; 方案:对模型正则化处理,损失函数添加正则项(αL2),生成新的损失函数,并对新的损失函数进行优化; 优化新的损失函数: 二、正 阅读全文
posted @ 2018-07-29 21:50 何永灿 阅读(3930) 评论(0) 推荐(0) 编辑
摘要:一、基础 逻辑回归中的决策边界,本质上相当于在特征平面中找一条直线,用这条直线分割所有的样本对应的分类; 逻辑回归只可以解决二分类问题(包含线性和非线性问题),因此其决策边界只可以将特征平面分为两部分; 问题:使用直线分类太过简单,因为有很多情况样本的分类的决策边界并不是一条直线,如下图;因为这些样 阅读全文
posted @ 2018-07-29 17:11 何永灿 阅读(5234) 评论(0) 推荐(0) 编辑
摘要:一、基础理解 决策边界:在特征空间内,根据不同特征对样本进行分类,不同类型间的分界就是模型针对该数据集的决策边界。 决策边界,用于分类问题中,通过决策边界可以更好的可视化分类结果; 在二维特征空间中,决策边界为一条直线,理论上,在该直线上 θ.T.x = 0,但实际上不一定存在这样的样本点; 通过决 阅读全文
posted @ 2018-07-25 20:03 何永灿 阅读(7827) 评论(0) 推荐(2) 编辑
摘要:一、线性模型预测一个样本的损失量 损失量:模型对样本的预测结果和该样本对应的实际结果的差距; 1)为什么会想到用 y = -log(x) 函数? (该函数称为 惩罚函数:预测结果与实际值的偏差越大,惩罚越大) 2)求一个样本的损失量 由于逻辑回归解决的是分类问题,而且是二分类,因此定义损失函数时也要 阅读全文
posted @ 2018-07-15 18:31 何永灿 阅读(6623) 评论(1) 推荐(3) 编辑
摘要:逻辑回归(Logistic Regression) 一、行业算法应用率 机器学习算法的本质就是求出一个函数 ý = f(x),如果给函数输入一个样本 x ,经过 f(x) 运算后得到一个 ý; 具统计,2017年,除了军事和安全领域,逻辑回归算法是在其它所有行业使用最多了一种机器学习算法; Logi 阅读全文
posted @ 2018-07-15 11:39 何永灿 阅读(716) 评论(0) 推荐(0) 编辑
摘要:一、岭回归和 LASSO 回归的推导过程 1)岭回归和LASSO回归都是解决模型训练过程中的过拟合问题 具体操作:在原始的损失函数后添加正则项,来尽量的减小模型学习到的 θ 的大小,使得模型的泛化能力更强; 2)比较 Ridge 和 LASSO 名词 Ridge、LASSO:衡量模型正则化; MSE 阅读全文
posted @ 2018-07-13 19:39 何永灿 阅读(3774) 评论(0) 推荐(0) 编辑
摘要:一、基础理解 LASSO 回归(Least Absolute Shrinkage and Selection Operator Regression)是模型正则化的一定方式; 功能:与岭回归一样,解决过拟合或者模型含有的巨大的方差误差的问题; 二、LASSO 回归 以线性回归为例 1)对于岭回归 任 阅读全文
posted @ 2018-07-13 16:22 何永灿 阅读(3074) 评论(0) 推荐(0) 编辑
摘要:一、基础理解 模型正则化(Regularization) # 有多种操作方差,岭回归只是其中一种方式; 功能:通过限制超参数大小,解决过拟合或者模型含有的巨大的方差误差的问题; 影响拟合曲线的两个因子 影响拟合曲线的两个因子 二、岭回归 岭回归(Ridge Regression):模型正则化的一种方 阅读全文
posted @ 2018-07-13 10:15 何永灿 阅读(2259) 评论(0) 推荐(0) 编辑
摘要:np.random.uniform() 阅读全文
posted @ 2018-07-13 09:06 何永灿 阅读(205) 评论(0) 推荐(0) 编辑
摘要:一、什么是偏差和方差 在机器学习中,实际要训练模型用来解决一个问题,问题本身可以理解为靶心,而模型就是子弹,则子弹呈现在靶子上弹孔位置就可能出现偏差和方差的情况,也就是说训练出的模型可能犯偏差和方差两种错误; 二、 模型误差 模型误差 = 偏差(Bias) + 方差(Variance) + 不可避免 阅读全文
posted @ 2018-07-12 11:18 何永灿 阅读(3404) 评论(0) 推荐(0) 编辑
摘要:一、训练及验证模型的方法 最佳模型:在测试数据集(或者相对于模型来说是全新的数据集)上表现的比较好的模型,因为这种模型的泛化能力强,放在生成环境中面对未知的环境时有更好的表现。 调整的参数通常就是超参数:kNN 中的 k 和 P 、多项式回归中的 degree 等; 通常调参时使用交叉验证的方法。 阅读全文
posted @ 2018-07-10 22:23 何永灿 阅读(2493) 评论(0) 推荐(0) 编辑
摘要:一、基础理解 学习曲线作用: 学习曲线:随着训练样本的逐渐增多,算法训练出的模型的表现能力; 表现能力:也就是模型的预测准确率,使用均方误差表示;学习率上体现了模型相对于训练集和测试集两类数据的均方误差。 具体的操作: 具体的操作: 二、实例 1)模拟数据集 数据集 import numpy as 阅读全文
posted @ 2018-07-10 21:24 何永灿 阅读(13037) 评论(1) 推荐(2) 编辑
摘要:一、基础理解 1)训练模型的目的 训练模型不是为了最大程度的拟合样本点,而是为了获得一个可以预测的模型,当有了新的样本时,该模型可以给出很好的解答,因此衡量模型对于训练数据集的拟合程度时是没有意义的,我们真正需要的是该模型的泛化能力; 均方误差:描述两组数之间的相同程度; 机器学习领域,用模型在 X 阅读全文
posted @ 2018-07-10 09:53 何永灿 阅读(1602) 评论(0) 推荐(0) 编辑
摘要:一、scikit-learn 中的多项式回归 1)实例过程 模拟数据 import numpy as np import matplotlib.pyplot as plt x = np.random.uniform(-3, 3, size=100) X = x.reshape(-1, 1) y = 阅读全文
posted @ 2018-07-08 00:04 何永灿 阅读(6939) 评论(0) 推荐(0) 编辑
摘要:一、多项式回归的思想 1)什么是多项式回归法? 样本特征和值(y)呈非线性关系,这种关系的数学模型是一个多项式,如:y = ax2 + bx + c,其中 x2 可以看做是认为添加的另一个特征。 2)多项式回归法能解决什么问题?以及怎么解决? 解决的问题:拟合不是直线关系而是其它曲线关系的数据; 解 阅读全文
posted @ 2018-07-06 14:53 何永灿 阅读(1977) 评论(0) 推荐(0) 编辑
摘要:一、思维理解 将原始数据集降维,就是将数据集中的每一个样本降维:X(i) . WkT = Xk(i); 在人脸识别中,X 中的每一行(一个样本)就是一张人脸信息; 思维:其实 Wk 也有 n 列,如果将 Wk 的每一行看做一个样本,则第一行代表的样本为最重要的样本,因为它最能反映 X 中数据的分布, 阅读全文
posted @ 2018-07-05 18:12 何永灿 阅读(1489) 评论(0) 推荐(0) 编辑
摘要:一、噪音 噪音产生的因素:可能是测量仪器的误差、也可能是人为误差、或者测试方法有问题等; 降噪作用:方便数据的可视化,使用样本特征更清晰;便于算法操作数据; 具体操作:从 n 维降到 k 维,再讲降维后的数据集升到 n 维,得到的新的数据集为去燥后的数据集; 降维:X_reduction = pca 阅读全文
posted @ 2018-07-03 23:40 何永灿 阅读(5592) 评论(1) 推荐(0) 编辑
摘要:一、数据 获取数据 import numpy as np from sklearn.datasets import fetch_mldata mnist = fetch_mldata("MNIST original") 查看数据 mnist # 输出: {'COL_NAMES': ['label', 阅读全文
posted @ 2018-07-03 11:10 何永灿 阅读(3878) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示