机器学习【1】（Python Machine Learning读书笔记）

依旧是作为读书笔记发布，不涉及太多代码和工具，作为了解性文章来介绍机器学习。

文章主要分为两个部分，machine learning的概述和 scikit-learn的简单介绍，两部分关系紧密，合并书写，以致整体篇幅较长，分为1、2两篇。

首先，是关于机器学习。要点如下：

1.1 机器学习三种主要方式

1.2 四大过程

1.3 python相关实现（安装包）

【1.1】

机器学习方式主要有三大类：supervised learning（监督式学习）, unsupervised learning（非监督式学习）, and reinforcement learning（增强学习）

supervised learning（监督式学习）：

监督式学习主要目的是为了从已有数据中预测未来以及分类。先看一下基本定义：

利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习任务。

通俗的解释一下，监督学习就是对一组（或多组）已知数据，进行分析，得出该状况下的最优模型，然后用这个模型对未知结果的数据进行分析，进行预测和分类。这在我们平常的简单建模中应用广泛，且置信程度较高。因而，它的一大特点就是“有训练样本”

监督学习最常用的两种算法是：统计分类 Classification 和回归分析Regression

使用哪一种算法，需要根据数据特点进行选择。如果数据是离散的、非线性的，用统计分类的方法；而数据是线性的，则选择回归分析。下面两张图形象说明了两者的区别：

图1 统计分类

图2 回归分析

reinforcement learning（增强学习）

增强学习的目的是为了在相应环境下，使得决策最优。从根本上说，增强学习也拥有一个结果，我们称之为“回报信号”，它可以被描述成“回报函数”，这与监督式学习有类似之处。因而，先将这个概念提前描述。

与监督式学习不同的是，增强学习的回报函数不仅仅是一个函数值或分类标签，它是用来衡量某一步骤（或行为）的优劣，带来的结果是否优良。因而，增强学习就是在交互中，谋求决策最优。它与环境密切相关。

最典型的例子就是象棋程序。程序对每一步进行评估，得到相应的回报函数，我们只需要找到一条回报值最大的路径（每步的回报之和最大），就认为是最佳的路径。

unsupervised learning非监督式学习

先看特点：dealing with unlabeled data or data of unknown structure 也就是之前提到的，非监督式和监督式最大的区别就是样本是否可训练。

两大算法分别是：聚类和降维，从字面就极好理解，聚类是将相似度高的物体汇聚成同一类。数据没有经过训练，直接进行分析。降维，就是将数据维度降低。下面两张图，可以很好的表现出来：

图3 聚类

图4 降维

【1.2】机器学习过程

主要分为四大部分：

（1）Preprocessing – getting data into shape

预处理是机器学习关键的一步，也是任何数据分析中最基础的一步。现实生活中的数据总是不能完全符合我们的格式，我们无法避免地需要对数据进行处理，使之成为我们需要的格式。具体方式不细说，可参考前面的几篇文章，有提到一些，也可以在实际用到时，系统学习

（2）Training and selecting a predictive model

简单来说就一句话，选择一个合适的模型。

（3）Evaluating models

通俗概况，误差分析及检验

（4）predicting unseen data instances

如果模型理想，即可应用

【1.3】Installing Python packages

    •NumPy 1.9.1
    •SciPy 0.14.0
    •scikit-learn 0.15.2
    •matplotlib 1.4.0
    •pandas 0.15.2

posted @ 2016-08-11 11:54 biyoner 阅读(347) 评论(0) 编辑收藏举报

刷新页面返回顶部

biyoner