01 2020 档案

摘要:三、线性回归 5、线性回归训练流程 线性回归模型训练流程如下: 6、线性回归的正规方程解 对线性回归模型,假设训练集中 m个训练样本,每个训练样本中有 n个特征,可以使用矩阵的表示方法,预测函数可以写为: Y = hetaX 其损失函数可以表示为: 其中,标签 Y 为 mx1 的矩阵,训练特征 X  阅读全文
posted @ 2020-01-31 15:02 泰初 阅读(3395) 评论(0) 推荐(0) 编辑
摘要:一、预备知识 1、凸函数 凸函数:对于一元函数f(x),如果对于任意tϵ[0,1]均满足 f(tx1+(1−t)x2) ≤ tf(x1)+(1−t)f(x2) 。 凸函数特征: (1)凸函数的割线在函数曲线的上方。 (2)凸函数具有唯一的极小值,该极小值就是最小值。也就意味着我们求得的模型是全局最优 阅读全文
posted @ 2020-01-30 17:27 泰初 阅读(2977) 评论(0) 推荐(0) 编辑
摘要:一、K-means算法原理 k-means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有值的均值得到,每个类用聚类中心来描述。对于给定的一个包含n个d维数据点的数据集X以及要分得的类别K,选取欧式距离作为相似度指标,聚类目标是使得各 阅读全文
posted @ 2020-01-19 18:13 泰初 阅读(3923) 评论(0) 推荐(0) 编辑
摘要:一、朴素的贝叶斯算法原理 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据,朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,朴素的意思是条件概率独立性。 条件概率的三个重要公式: (1)概率乘法公式: P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA) (2)全概率 阅读全文
posted @ 2020-01-19 17:32 泰初 阅读(5049) 评论(0) 推荐(0) 编辑
摘要:1.感知器算法原理 两类线性可分的模式类:,设判别函数为:。 对样本进行规范化处理,即类样本全部乘以(-1),则有: 感知器算法通过对已知类别的训练样本集的学习,寻找一个满足上式的权向量。 2.算法步骤 (1)选择N个分属于和类的模式样本构成训练样本集{ X1, …, XN }构成增广向量形式,并进 阅读全文
posted @ 2020-01-19 12:02 泰初 阅读(4516) 评论(0) 推荐(0) 编辑
摘要:1.4 Pandas速成 Pandas是面向数据分析场景设计的Python开源软件工具包,从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据。 阅读全文
posted @ 2020-01-19 11:21 泰初 阅读(515) 评论(0) 推荐(0) 编辑
摘要:1.3Matplotlib速成 matplotlib是python中著名的2D绘图库,使用方法比较简单,按照以下三步操作就能很简单地完成绘图。 (1)调用plot(),scatter()等方法,并为绘图填充数据,数据是numpy的ndarray类型对象; (2)设定数据标签,使用xlabel()、y 阅读全文
posted @ 2020-01-19 11:18 泰初 阅读(396) 评论(0) 推荐(0) 编辑
摘要:1.2 NumPy速成 numpy为scipy提供了基本的数据结构和运算,其中最主要的是ndarray多维数组,它提供了高效的适量运算功能。 1.2.1创建数组 #根据列表创建数组 import numpy as np myarray = np.array([1,2,3]) print(myarra 阅读全文
posted @ 2020-01-19 10:45 泰初 阅读(394) 评论(0) 推荐(0) 编辑
摘要:1.1python速成 1.1.1基本数据类型和赋值运算 字符串 data ='hello world!' print(data[0]) print(data[1:5]) print(len(data)) print(data) 数值 value=523 print(value) value=6.1 阅读全文
posted @ 2020-01-18 22:01 泰初 阅读(508) 评论(0) 推荐(0) 编辑
摘要:2 模型评估与选择 2.1评估方法 2.1.1训练集和测试集 实例1:鸢尾花数据集(Iris) 鸢尾花数据集(Iris)是一个经典数据集。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于 阅读全文
posted @ 2020-01-18 21:41 泰初 阅读(1168) 评论(0) 推荐(0) 编辑
摘要:六、sklearn中的分类性能指标 机器学习中常使用 sklearn 完成对模型分类性能的评估,我们需要掌握使用 sklearn 提供的以下接口: accuracy_score 准确度 precision_score 精准率 recall_score 召回率 f1_score F1 Score ro 阅读全文
posted @ 2020-01-18 21:14 泰初 阅读(1072) 评论(0) 推荐(0) 编辑
摘要:五、衡量分类任务的性能指标 5、ROC曲线与AUC (1)ROC曲线 ROC曲线( Receiver Operating Cha\fracteristic Curve )描述的 TPR ( True Positive Rate )与 FPR ( False Positive Rate )之间关系的曲 阅读全文
posted @ 2020-01-18 20:23 泰初 阅读(1288) 评论(0) 推荐(0) 编辑
摘要:五、衡量分类任务的性能指标 3、精准度与召回率 精准率(Precision)指的是模型预测为 Positive 时的预测准确度,其计算公式如下: 召回率(Recall)指的是我们关注的事件发生了,并且模型预测正确了的比值,其计算公式如下: 混淆矩阵: 真实预测01 0 TN FP 1 FN TP 举 阅读全文
posted @ 2020-01-14 22:45 泰初 阅读(1474) 评论(0) 推荐(0) 编辑
摘要:五、衡量分类的性能指标 1、准确度的陷阱 准确度(正确率)越高就能说明模型的分类性能越好吗? 答:非也!举个例子,现在我开发了一套癌症检测系统,只要输入你的一些基本健康信息,就能预测出你现在是否患有癌症,并且分类的准确度为 0.999。但是我们知道,一般年轻人患癌症的概率非常低,假设患癌症的概率为 阅读全文
posted @ 2020-01-13 17:27 泰初 阅读(990) 评论(0) 推荐(0) 编辑
摘要:四、衡量回归的性能指标 1、均方误差-MSE(Mean Squared Error) 其中y^i表示第 i 个样本的真实标签,p^i表示模型对第 i 个样本的预测标签。 线性回归的目的就是让损失函数最小。那么模型训练出来了,我们在测试集上用损失函数来评估模型就行了。 2、均方根误差-RMSE(Roo 阅读全文
posted @ 2020-01-13 17:20 泰初 阅读(2066) 评论(0) 推荐(0) 编辑
摘要:三、评估方法 1、留出法(hold-out) 直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D = S ∪ T,S ∩ T = ø 。在 S 上训练出模型后,用 T 来评估其测试误差,作为对泛化误差的估计。 举例: 以二分类任务为例,假定 D 包含1000个样本 阅读全文
posted @ 2020-01-13 17:18 泰初 阅读(2508) 评论(0) 推荐(0) 编辑
摘要:一、经验误差与拟合 1、模型的评估 机器学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会训练出不同的模型,不同的模型可能会对未知数据作出不同的预测,所以,如何评价模型好坏,并选择出好的模型是我们所学的重点。 2、训练集与测试集 (1)为什么要划分训练集和测试 阅读全文
posted @ 2020-01-12 19:41 泰初 阅读(2332) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示