随笔分类 - 机器学习
摘要:一元回归: 1 import numpy as np 2 import matplotlib.pyplot as plt 3 import tensorflow as tf 4 5 #加载数据集 6 boston_housing = tf.keras.datasets.boston_housing
阅读全文
摘要:其中,GradientTape(persistent=False, watch_accessed_variables=False)有两个参数:persistent和watch_accessed_variables persistent: 布尔值,用来指定新创建的gradient tape是否是可持续
阅读全文
摘要:下面是一个梯度下降法对多元问题的求解: 1 import numpy as np 2 import matplotlib.pyplot as plt 3 plt.rcParams['font.sans-serif'] = ['Simhei'] 4 5 area = np.array([137.97,
阅读全文
摘要:对于对数运算,Tensorflow中之提供了e为底数的对数运算tf.math.log(x),如果想要自定义底数,可以利用换底公式 张量运算的广播机制:如果一个高维张量和低维张量相乘,则会将低维张量广播到高维张量上。例如一个2维张量加一个1维张量: 再例如:一个3维张量加(乘)一个一维张量: 另外,说
阅读全文
摘要:tf.concat和tf.stack这两个函数都是合并张量。但是其合并结果不一样。 tf.concat合并之后不改变原来张量的维度,比如合并两个二维的张量,结果还是二维的。 而tf.stack会改变维度,比如合并两个二维的张量,合并后的结果是三维的。 嗯,就这样。
阅读全文
摘要:K-Means属于非监督分类,在数据聚类中是相对容易也是非常经典的算法。通常用在大量数据需要进行分类的时候。K表示要把数据分类K类。 其计算步骤为(以K=3为例): 1、随机在数据当中抽取3个样本,当做三个类别的中心点(绿、红、蓝)。 2、其次,计算其余的点分别到这三个中心点的距离,这样每一个样本都
阅读全文
摘要:回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标
阅读全文
摘要:概念理解: 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。利用相同的训练数搭建多个独立的分类模型,然后通过投票的方式,以少数服从多数的原则作出最终的分类决策。例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的结果是False,
阅读全文
摘要:理解决策树原理 决策树是一种基本的分类方法,从编程语言的角度理解决策树其实就是很多个if....else...组成的条件筛选,如果满足给出的第一个条件就进入下一个条件筛选,如果不满足就退出来.... 类似下面这样图:(图片来自于:https://zhuanlan.zhihu.com/p/300594
阅读全文
摘要:交叉验证 将拿到的训练数据,分为训练集和验证机。以下图为例:将训练数据分为4份,其中一份作为验证集,。然后经过5次的测试,每次都更换不同的验证机, 最后得到5组模型的结果。最后取平均值作为最后的结果。这也称为4折交叉验证。 网格搜索(超参数搜索): 通常情况下,有很多参数是需要手动指定的(如K-近邻
阅读全文
摘要:再分类任务下,预测结果和真实情况之间存在四种不同的组合,这四种组合构成了混淆矩阵。 举个例子,看下图。当真实情况是猫,预测结果也是猫的时候,这个时候定义为真正例;当真实情况是猫,而预测结果不是猫的时候定义为伪反例子; 当真实情况不是猫,而预测结果是猫时定义为伪正例;当真实情况不是猫预测结果也不是猫时
阅读全文
摘要:学习这个算法前,得知道一些概率论上面得知识。 因此,使用朴素贝叶斯算法前,首先需要保证各个特征之间要保持相互独立。 API:sklearn.naive_bayes.MultinomialNB alpha时拉普拉斯平滑系数,默认为1。其作用时防止分类得时候类别为0时导致统计结果为0。 上个例子: 读取
阅读全文
摘要:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF指的是:term frequency :词的频率 IDF指的是:inverse document fre
阅读全文
摘要:什么是K-近邻算法? 答:官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。 也就是说这个算法是用来分类的。 API:sklearn.neighbo
阅读全文
摘要:在日常的处理数据的时候,会遇到数据中某些地方没有值,也就是缺失了。 对于这种情况,一半有两种情况:删除和插补。 一般步建议删除。 API:sklearn.preprocessing.Imputer 参数介绍:missing_value 表示缺失值是什么;strategy 表示填补的策略,是用均值还是
阅读全文
摘要:因为归一化和标准化在数据分析和处理中都属于数据与预处理。因此,其API都在 sklearn.preprocessing中 1、归一化 作用:将数据映射到到某个区域内,默认是0到1之间。 API: sklearn.preprocessing.MinMaxScaler feature_range(0,1
阅读全文
摘要:前面讲到了,这个库适合学习,轻量级,所以先学它。 安装就不讲了,简单。不过得先安装numpy和pandas库才能安装scikit-learn库。 如果安装了anaconda得话,会自带有这个库。 1、首先进行字典特征提取 作用:对字典数据进行特征值提取。 API:sklearn.feature_ex
阅读全文