ml in action part 1
1. 分类
前两部分主要探讨监督学习(supervisedieaming )
目标变量:标称型和数值型
标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{ 爬行类、鱼类、哺乳类、两栖类、植物、真 菌 } ;数值型目标变量则可以从无限的数值集合中取值,如 0.100、42.001、〗000.743等
前七章主要研究分类算法
机器学习:就是把无序的数据转换成有用的信息
监督学习:分类和回归,知道预测什么,有目标变量的分类信息
1)机器学习的主要任务就是分类。
测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据
2)另一项任务是回归,它主要用于预测数值型数据
无监督学习:无类别,无目标值
聚类:将数据集合分成由类似的对象组成的多个类的过程
密度估计 :寻找描述数据统计值的过程
1.2 应用程序步骤
1 )收集数据。 制作网络爬虫从网站上抽取数据 ,公共源等
2 )准备输入数据 。数据格式处理
3)分析输入 数 据 ,确保没有垃圾数据
4)训 练 算 法 ,无监督略过
5) 测 试 算 法
6 ) 使 用 算 法
1.3 Python
SciPy和NumPy 等许多科学函数库都实现了向量和矩阵操作
绘图工具Matplotlib协同工作。Matplotlib可以绘制2D、30图形
缺点:性能问题
NumPy, 矩阵处理
randMat = mat(random.rand(4,4))
randMat.I 求逆
安装:
https://pypi.python.org/pypi/setuptools下载setuptools-34.3.0.zip,解压到python目录下Scripts目录中,cd到该目录下,执行python setup.py来安装easy_install,安装完成,执行easy_install.py pip,此时pip应该安装好了,可以把该目录C:\python27\Scripts也添加到环境变量
python安装目录 python -m pip install numpy
验证:from numpy import *
2. k-邻近算法,kNN
测量不同特征值之间的距离方法进行分类
优 点 :精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据范围:数值型和标称型。
原理:样本集中每个数据都存在标签,即我们知道样本集中每一数据
与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的
特征进行比较,然后算法提取样本集中特征最相似数据(最 近 邻 )的分类标签
1)电影分类
使 用 P y th o n 导 入 数 据 ,createDataSet
从文本文件中解析数据 ,classify
2)dating people 分类