随笔分类 - 机器学习
摘要:[TOC] 准备知识 Tensorflow运算API 矩阵运算:tf.matmul(x, w) 平方:tf.square(error) 均值:tf.reduce_mean(error) 梯度下降API tf.train.GradientDescentOptimizer(learning_rate):
阅读全文
摘要:[TOC] 认识Tensorflow TensorFlow是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计
阅读全文
摘要:逻辑回归(Logistic Regression),简称LR。它的特点是能够使我们的特征输入集合转化为0和1这两类的概率。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进了;来,可以使用逻辑回归。了解过线性回归之后再来看逻辑回归可以更好的理解。 Logist
阅读全文
摘要:sklearn中模型的保存与加载的api:sklearn.externals.joblib 对 "【学习笔记】回归算法 线性回归" 中的波士顿房价的模型进行保存: 上例中保存的文件的扩展名为:pkl 加载上面保存的模型: 输出结果:
阅读全文
摘要:具有L2正则化的线性最小二乘法。岭回归是一种专用于线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。当数据集中存在共线性的时候,岭回归就会有用。 正
阅读全文
摘要:[TOC] 线性回归的定义是:目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。 单变量线性回归:涉及到的变量只有一个。例如:预测房价例
阅读全文
摘要:[TOC] 决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选择、决
阅读全文
摘要:交叉验证 目的:为了让被评估的模型更加准确可信。 交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。 超参数搜索 网格搜索 通常情况下,有很多参数是需
阅读全文
摘要:[TOC] estimator.score():一般最常见使用的是准确率,即预测结果正确的百分比 混淆矩阵 在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类) 精确率(Precision)与召
阅读全文
摘要:[TOC] 朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。朴素贝叶斯分类器的构造基础是贝叶斯理论。 概率论基础 概率定义为一件事情发生的可能性。事情发生的概率可以 通过观测数据中的事件发生次数来计算,事件发生的概率等于该事件发生次数除以所有事件发生的总次数。举一些例子
阅读全文
摘要:k 近邻算法采用测量不同特征值之间的距离来进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 用例子来理解k 近邻算法 电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片。动作片有哪些公共的特征
阅读全文
摘要:数据集划分 机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 训练数据和测试数据常用的比例一般为:70%: 30%, 80%: 20%, 75%: 25% sklearn数据集划分API: sklearn.model_select
阅读全文
摘要:[TOC] 特征工程 从数据中抽取出来的对预测结果有用的信息,通过专业的技巧进行数据处理,是的特征能在机器学习算法中发挥更好的作用。优质的特征往往描述了数据的固有结构。 最初的原始特征数据集可能太大,或者信息冗余,因此在机器学习的应用中,一个初始步骤就是选择特征的子集,或构建一套新的特征集,减少功能
阅读全文
摘要:习题 习题1.1 表1.1中若只包含编号为1,4的两个样例,试给出相应的版本空间。 如下为西瓜的数据集: 数据集中有三种属性,每种属性有2种可能取值,则一共有3 * 3 * 3 + 1 = 28种假设(考虑到泛化*,空集Ø的情况)。如下给出西瓜的假设空间: 去掉那些与正例不一致的假设,最终形成的版本
阅读全文
摘要:本篇文章会列出在学习AI的路上所读的一些书籍或者其他一些相关内容,主要是用来监督自己,希望自己能够在AI学习上坚持下去。 《机器学习 - 周志华》 机器学习和深度学习课程 机器学习 tensorflow
阅读全文