随笔分类 - 机器学习
摘要:在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题 先展示先通常的做法 先对数据标准化,然后做主成分分析降维,最后做回归预测 现在使用管道 Pipeline对象接收元组构成的列表作为输入,每个元组第一个值作为变量名
阅读全文
摘要:在机器学习中,选择合适的算法固然重要,但是数据的处理也同样重要。通过对数据的处理,能提高计算效率,提高预测识别精确度等等 以下记录下一些数据处理的方法 一、处理缺失值 对于数据集中有缺失值的,粗暴的方法是直接删除该行或者该列的数据,但是这样不可取。可以通过计算每一列或者每一行的平均值来替代该值。 s
阅读全文
摘要:最近在自学机器学习,记录下一些学习记录 如何用python实现一个简单的感知机 需要安装numpy库,即下面用到的np 简单的说就是 通过计算权重向量w和输入向量x的线性组合,判断该线性组合是否大于某个阀值,如果是,输出1,不是,输出-1 根据判断结果与正确结果对比,调整权重向量w,得到最佳的权重向
阅读全文
摘要:numpy是一个python和矩阵相关的库,在机器学习中非常有用,记录下numpy的基本用法 numpy的数组类叫做ndarray也叫做数组,跟python标准库中的array.array不同,后者只处理一维的数组而且提供很少的函数,numpy中有更多重要的属性 分别是 ndarray.ndim 该
阅读全文
摘要:matplotlib是python中很强大的绘图工具,在机器学习中经常用到 首先是导入 import matplotlib.pyplot as plt plt中有很多方法,记录下常用的方法 plt.plot()该方法用来画图,第一个参数是y值,第二个参数是x值,第三个参数是由两个值构成的字符串,第一
阅读全文
摘要:下图摘自官方文档 链接 http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
阅读全文
摘要:一加载示例数据集 数据集是一个类似字典的对象,它保存有关数据的所有数据和一些元数据。该数据存储在.data成员中,它是一个数组 数字数据集存放在digits.data,数据如下,里面包含很多数字数据集的数据,一个列表即一个数字所有数据 digits.target给出数字数据集的真实数据,即我们正在尝
阅读全文
摘要:scikit-learn是python的机器学习库 记录下载window中和linux中如何下载scikit-learn 方法一 直接下载Anaconda 这是一个非常齐全的python发行版本,里面已经包含了scikit-learn 方法二 使用pip下载 window下 pip install
阅读全文