ml in action part 1

1. 分类

前两部分主要探讨监督学习(supervisedieaming )

目标变量:标称型和数值型 

标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{ 爬行类、鱼类、哺乳类、两栖类、植物、真 菌 } ;数值型目标变量则可以从无限的数值集合中取值,如 0.10042.001、〗000.743等 

 

前七章主要研究分类算法

 

机器学习:就是把无序的数据转换成有用的信息

监督学习:分类和回归,知道预测什么,有目标变量的分类信息

 

1)机器学习的主要任务就是分类。

测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据

2)另一项任务是回归,它主要用于预测数值型数据

 

无监督学习:无类别,无目标值

聚类:将数据集合分成由类似的对象组成的多个类的过程 

密度估计 :寻找描述数据统计值的过程 

 

1.2 应用程序步骤

1 )收集数据。 制作网络爬虫从网站上抽取数据 ,公共源等

2 )准备输入数据 。数据格式处理

3)分析输入 数 据 ,确保没有垃圾数据

4)训 练 算 法 ,无监督略过

5) 测 试 算 法 

6 ) 使 用 算 法

1.3 Python

SciPy和NumPy 等许多科学函数库都实现了向量和矩阵操作

绘图工具Matplotlib协同工作。Matplotlib可以绘制2D30图形

缺点:性能问题

NumPy, 矩阵处理

randMat = mat(random.rand(4,4))

randMat.I  求逆

安装:

https://pypi.python.org/pypi/setuptools下载setuptools-34.3.0.zip,解压到python目录下Scripts目录中,cd到该目录下,执行python setup.py来安装easy_install,安装完成,执行easy_install.py pip,此时pip应该安装好了,可以把该目录C:\python27\Scripts也添加到环境变量

python安装目录 python -m pip install numpy

验证:from numpy import *

 

2. k-邻近算法,kNN

测量不同特征值之间的距离方法进行分类

优 点 :精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据范围:数值型和标称型。

原理:样本集中每个数据都存在标签,即我们知道样本集中每一数据
与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的
特征进行比较,然后算法提取样本集中特征最相似数据(最 近 邻 )的分类标签

 

1)电影分类

使 用 P y th o n 导 入 数 据 ,createDataSet
从文本文件中解析数据 ,classify

2)dating people 分类

 

posted @ 2018-02-06 18:09  波罗蜜  阅读(177)  评论(0编辑  收藏  举报