05 2018 档案

摘要:一、推导目标函数 1)基础概念 多元线性回归模型: 多元线性回归的损失函数: 参数 theta:θ = (θ0, θ1, θ3, ..., θn) n:表示模型中有 n 个特征参数; θ1:表示 梯度:,对每一个 θi 求一次偏导数; 梯度代表方向:对应 J 增大最快的方向; 偏导数:函数 J 中含 阅读全文
posted @ 2018-05-31 15:13 何永灿 阅读(1589) 评论(0) 推荐(0) 编辑
摘要:一、梯度下降法基础 定义:梯度下降法不是一个机器学习算法,是一种基于搜索的最优化方法; 功能:最优化一个损失函数; 梯度上升法:最大化一个效用函数; 机器学习中,熟练的使用梯度法(下降法、上升法)求取目标函数的最优解,非常重要; 线性回归算法模型的本质就是最小化一个损失函数,求出损失函数的参数的数学 阅读全文
posted @ 2018-05-30 15:49 何永灿 阅读(983) 评论(0) 推荐(0) 编辑
摘要:1)逆矩阵:AB = BA = E,矩阵A、B均为方阵,E为单位矩阵,称A为可逆矩阵,B为A的逆矩阵; 2)方阵:n x n 的矩阵; 3)单位矩阵:一个对角为1,E[0, 0] = E[1, 1] = E[2, 2] = ... = E[n, n] = 1,其余元素为0; 4) 5)范数 || x 阅读全文
posted @ 2018-05-29 15:45 何永灿 阅读(1088) 评论(0) 推荐(0) 编辑
摘要:一、多元线性回归基础 简单线性回归算法只有一个特征值(x),通常线性回归算法中有多个特征值,有的甚至有成千上万个特征值; 多元线性回归中有多种特征,每一种特征都与 y 呈线性关系,只是线性关系的系数不同; 多元线性回归的模型可以解决一元线性回归问题; 多元线性回归模型中,每一种特征都与值(也就是 y 阅读全文
posted @ 2018-05-29 14:33 何永灿 阅读(2827) 评论(0) 推荐(0) 编辑
摘要:一、MSE、RMSE、MAE 思路:测试数据集中的点,距离模型的平均距离越小,该模型越精确 # 注:使用平均距离,而不是所有测试样本的距离和,因为距离和受样本数量的影响 1)公式: MSE:均方误差 RMSE:均方根误差 MAE:平均绝对误差 二、具体实现 1)自己的代码 import numpy 阅读全文
posted @ 2018-05-29 11:33 何永灿 阅读(53083) 评论(0) 推荐(4) 编辑
摘要:转于:https://www.cnblogs.com/luhuan/p/7925790.html博主:忧郁的白衬衫 一、dot()的使用 1)格式:np.dot(array1, array2) == array1.dot(array2) 2)功能:返回的是两个数组乘积后的数据和 # 注:np.dot 阅读全文
posted @ 2018-05-26 16:00 何永灿 阅读(1134) 评论(0) 推荐(0) 编辑
摘要:# 注:使用线性回归算法的前提是,假设数据存在线性关系,如果最后求得的准确度R < 0,则说明很可能数据间不存在任何线性关系(也可能是算法中间出现错误),此时就要检查算法或者考虑使用其它算法; 一、功能与特点 1)解决回归问题 2)思想简单,实现容易 # 因为算法运用了很多的数学推到,使计算机实现变 阅读全文
posted @ 2018-05-26 11:07 何永灿 阅读(2967) 评论(0) 推荐(0) 编辑
摘要:原文:https://blog.csdn.net/zolalad/article/details/11848739 博主:zolalad 通常,对于一个给定的算法,我们要做 两项分析。第一是从数学上证明算法的正确性,这一步主要用到形式化证明的方法及相关推理模式,如循环不变式、数学归纳法等。而在证明算 阅读全文
posted @ 2018-05-25 18:23 何永灿 阅读(559) 评论(0) 推荐(0) 编辑
摘要:数据归一化(Feature Scaling) 一、为什么要进行数据归一化 原则:样本的所有特征,在特征空间中,对样本的距离产生的影响是同级的; 问题:特征数字化后,由于取值大小不同,造成特征空间中样本点的距离会被个别特征值所主导,而受其它特征的影响比较小; 例:特征1 = [1, 3, 2, 6, 阅读全文
posted @ 2018-05-25 17:10 何永灿 阅读(23395) 评论(2) 推荐(5) 编辑
摘要:一、scikit-learn库中的网格搜索调参 1)网格搜索的目的: 找到最佳分类器及其参数; 2)网格搜索的步骤: 以kNN算法为例,Jupyter中运行; import numpy as np from sklearn import datasets # 得到原始数据 digits = data 阅读全文
posted @ 2018-05-25 09:56 何永灿 阅读(3967) 评论(0) 推荐(1) 编辑
摘要:一、评测标准 模型的测评标准:分类的准确度(accuracy); 预测准确度 = 预测成功的样本个数/预测数据集样本总数; 二、超参数 超参数:运行机器学习算法前需要指定的参数; kNN算法中的超参数:k、weights、P; 一般超参数之间也相互影响; 调参,就是调超参数; 1)问题 # 以kNN 阅读全文
posted @ 2018-05-24 22:01 何永灿 阅读(7349) 评论(0) 推荐(0) 编辑
摘要:1、如果在cmd.exe中无法运行软件(如python),因为在系统的环境变量中,path中没有该软件的安装路径; 2、通过pip安装软件:pip install 文件路径\文件全名,将软件安装在指定路径,需要将该软件包复制该路径下; 未完待续。。。 阅读全文
posted @ 2018-05-24 19:17 何永灿 阅读(198) 评论(0) 推荐(0) 编辑
摘要:一、快捷键 Ctrl + N,输入类名:快速打开编辑器中的任何类; Ctrl + Shift + N:快速打开项目中的任何py文件; Ctrl + 空格:调用代码自动完成功能的特殊变体;通过按Ctrl +空两格允许你完成任何类的名字,无论它是否在当前文件导入。如果该类还没有导入,那么import语句 阅读全文
posted @ 2018-05-24 11:15 何永灿 阅读(450) 评论(0) 推荐(0) 编辑
摘要:一、关系 二、调用 # 一般都是调用其它包中的模块下的类或者函数; # print(__file__):查看当前模块的绝对路径; # 导入类后,可直接调用类的方法:类.func() # A/B/C/kNN.py,B文件夹为kNN.py文件的上级文件夹;(之所以导入上一级文件夹路径,可能为了避免后面使 阅读全文
posted @ 2018-05-24 09:09 何永灿 阅读(1910) 评论(0) 推荐(1) 编辑
摘要:一、判断机器学习算法的性能 机器学习经过训练得到的模型,其意义在于真实环境中的使用; 将全部的原始数据当做训练集直接训练出模型,然后投入到真实环境中,这种做法是不恰当的,存在问题: 方案:训练数据集与测试数据集切分(train test split),将原始数据的80%作为训练数据来训练模型,另外2 阅读全文
posted @ 2018-05-23 16:35 何永灿 阅读(12988) 评论(0) 推荐(0) 编辑
摘要:一、scikit-learn库中的kNN算法 scikit-learn库中,所有机器学习算法都是以面向对象的形式进行包装的; 所有scikit-learn库中机器学习算法的使用过程:调用、实例化、fit、预测; 1)使用scikit-learn库中的kNN算法解决分来问题: 代码实现过程: impo 阅读全文
posted @ 2018-05-23 10:00 何永灿 阅读(1648) 评论(0) 推荐(0) 编辑
摘要:一、kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分类问题 1)特点: 2)思想: 根本思想:两个样本,如果它们的特征足够相似,它们就有更高的概率属于同一个类别; 问题:根据现有训练数据集,判断新的样本属于哪种类型; 方法/思路: 3)代码实现过程: 示例代码: 阅读全文
posted @ 2018-05-22 16:41 何永灿 阅读(12074) 评论(0) 推荐(1) 编辑
摘要:一、sklearn模块 阅读全文
posted @ 2018-05-22 14:43 何永灿 阅读(1177) 评论(0) 推荐(0) 编辑
摘要:一、matplotlib绘制折线图 matplotlib绘图的实质是折线图,将所有的点用直线连接起来,由于距离比较密,看起来像是个平滑的曲线; 二、matplotlib绘制散点图:Scatter Plot 直接调用plt.scatter()函数即可,和plt.plot()用法一样 对于折现图,横轴表 阅读全文
posted @ 2018-05-22 13:01 何永灿 阅读(1821) 评论(0) 推荐(0) 编辑
摘要:一、中位数 定义/解释:按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小 # 如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。 二、方差 参考百科:方差 1)定义 方差(variance):是在概率论和统计方差衡量随机变量或一组数据时离散程 阅读全文
posted @ 2018-05-18 16:05 何永灿 阅读(25397) 评论(0) 推荐(0) 编辑
摘要:一、Jupyter Notebook的魔法命令 # 模块/方法 + ?或者help(模块/方法):查看模块/方法的解释文档; 1)%run # 机械学习中主要应用两个魔法命令:%run、%timeit # 魔法命令格式:% + 命令 # %run:将模块引用并在Jupyter Notebook中执行 阅读全文
posted @ 2018-05-17 16:59 何永灿 阅读(7737) 评论(0) 推荐(0) 编辑
摘要:一、关于数据 通过对数据集的学习,算法系统再接受新的特征后可以自己判断该特征对应的事物; 事物的特征数据; 一般大写字母表示矩阵,小写字母表示向量; 向量分为行向量(1 X n)和列向量(n X 1),数学上一般将向量表示为列向量; 将数据集表示在坐标系中,有几种特征,就用几种维度的空间,一个样本就 阅读全文
posted @ 2018-05-10 19:52 何永灿 阅读(678) 评论(0) 推荐(0) 编辑
摘要:# 注:一定要学会用help()查看变量、函数、类、实例对象的使用文档; # 格式:help(变量、函数、类、实例对象); 一、什么是机械学习 1、一般应用 垃圾邮件分类、图像识别、人脸识别、数字识别 传统解决思路: 编写规则,定义“垃圾邮件”,让计算机执行:将一封邮件输入到传统算法,经判断输出结果 阅读全文
posted @ 2018-05-09 16:20 何永灿 阅读(337) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示