Scikit-Learn Qucik Start(文档翻译)

      写在前面:今天是参加DataCastle比赛的第4天,在我妄图手写Boosting然而效率低的一B的时候,用sklearn的RF(RandomForest)没有优化参数、没有特征提取的情况下,居然都比我自己写的AdaBoost要好 ,所以我们目前的工作从编码实现转到了对sklearn的熟悉,然则求一中文文档而不得,英文渣渣的我也只能自己来翻译了。一则刚入ML坑的新人也在学习过程,二则英语渣渣星人有些我可能自己也看不懂,翻译不到位忘见谅了。

An introduction to machine learning with scikit-learn

1 机器学习:问题设定

一般来说,机器学习问题可以这样来理解:我们有n个 样本 (sample)的数据集,然后去预测未知数据的属性。如果描述每个样本的数字不只一个数字,比如一个多维的条目(也叫做 多变量数据 (multivariate data)),那么这个样本就有多个属性或者 特征 。

我们可以将学习问题分为以下几类:

 监督学习(supervised learning)是指样本数据中包括了我们想预测的属性,监督学习问题有以下两类:

      分类(classification):样本具有两个或多个类别,我们希望通过从已标记类别的数据学习,来预测未标记数据的分类。例如,识别手写数字就是一个分类问题,其目标是将每个输入向量对应到有穷的数字类别。从另一种角度来思考,分类是一种监督学习的离散(相对于连续)形式,对于n个样本,一方有对应的有限个类别数量,另一方则试图标记样本并分配到正确的类别。

      回归(regression):如果希望的输出是一个或多个连续的变量,那么这项任务被称作回归,比如用年龄和体重的函数来预测三文鱼的长度。

无监督学习(unsupervised learning)的训练数据包括了输入向量X的集合,但没有相对应的目标变量。这类问题的目标可以是发掘数据中相似样本的分组,被称作聚类(Clustering);也可以是确定输入样本空间中的数据分布,被称作密度估计(density estimation);还可以是将数据从高维空间投射到两维或三维空间,以便进行数据可视化。

2 加载样例数据集

scikit-learn有一些标准数据集,比如用于分类的 iris 和 digits 数据集,和用于回归的boston house prices数据集。

下面,我们会打开Python解释器来通过shell加载iris和digits数据集。$表示shell提示符,>>表示python解释器提示。

$ python
>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> digits = datasets.load_digits()

数据集类似字典对象,包括了所有的数据和关于数据的元数据(metadata)。数据被存储在.data成员内,是一个n_samples*n_features的数组。在监督问题中,一个或多个因变量(response variables)被储存在.target成员中。

例如,在digits数据集中,digits.data是可以用来分类数字样本的特征:

>>> print(digits.data)  
[[  0.   0.   5. ...,   0.   0.   0.]
 [  0.   0.   0. ...,  10.   0.   0.]
 [  0.   0.   0. ...,  16.   9.   0.]
 ...,
 [  0.   0.   1. ...,   6.   0.   0.]
 [  0.   0.   2. ...,  12.   0.   0.]
 [  0.   0.  10. ...,  12.   1.   0.]]

digits.target给出了digits数据集的真实值,即每个数字图案对应的我们想预测的真实数字:

>>> digits.target
array([0, 1, 2, ..., 8, 9, 8])

3 学习和预测

在digits数据集中,我们的任务是给定一个图案,预测其表示的数字是什么。我们的样本有10个可能的分类(数字0到9),我们将匹配一个 预测器 (estimator)来 预测 (predict)未知样本所属的分类。

在scikit-learn中,分类问题的预测器是一个实现了fit(x,y)和predict(t)方法的Python对象。

下面这个预测器的例子是sklearn.svm.SVC类,它实现了支持向量机分类 。预测期的构造函数需要模型参数,但现在,我们暂时先将预测器看作是一个黑盒:

>>> from sklearn import svm
>>> clf = svm.SVC(gamma=0.001, C=100.)

      选择模型的参数:在这个例子里我们手动设置了gamma的值,可以通过使用这些工具例如网格搜索(grid search)和交叉验证(cross validation)来自动找到参数的最佳取值。

 我们给预测器取个名字叫做clf(claasifier)。现在预测器必须来 匹配 (fit)模型,也就是说,它必须从模型中 学习 (learn)。这个过程是通过将训练数据集传递给fit方法来实现的。我们将除了最后一个样本的数据全部作为训练数据集。通过Python语法[:-1]来选择,这会生成一个新的包含了除最后一个条目的digits.data数组:

>>> clf.fit(digits.data[:-1], digits.target[:-1])  
SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

现在你可以预测新值了,具体来说,我们可以询问分类器,digits数据集里最后一个图案所代表的数字是什么(我们并没有用最后一个数据来训练分类器)

>>> clf.predict(digits.data[-1:])
array([8])

最一个图案如下:

Scikit-Learn机器学习介绍(中文翻译)

如你所见,这是一个有挑战性的任务:这个图像的分辨率很低,你赞同你的分类器给出的答案吗?

这里给出一个更复杂的你可以学习的分类问题的例子: 识别手写数字 (Recognizing hand-written digits

4 模型持久性

可以采用Python内建的持久性模型 pickle 来保存scikit的模型:

>>> from sklearn import svm
>>> from sklearn import datasets
>>> clf = svm.SVC()
>>> iris = datasets.load_iris()
>>> X, y = iris.data, iris.target
>>> clf.fit(X, y)  
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

>>> import pickle
>>> s = pickle.dumps(clf)
>>> clf2 = pickle.loads(s)
>>> clf2.predict(X[0:1])
array([0])
>>> y[0]
0

在scikit的特定情形下,用joblib’s来代替pickle(joblib.dump&joblib.load)会更吸引人,在大数据下效率更高,但只能pickle到磁盘而不是字符串:

>>> from sklearn.externals import joblib
>>> joblib.dump(clf, 'filename.pkl') 

你可以在之后重新加载pickled模型(可以在另一个Python程序里):

>>> clf = joblib.load('filename.pkl')

      注意:joblib.dump返回一个文件名列表。每个包含在clf对象中独立的numpy数组是在文件系统中是按顺序排列的一个独立文件。当用joblib.load重新加载模型时,所有文件必须在同一个目录下。pickle有一些安全性和维护性问题。

5 规范

scikit-learn预测期通过某些规则 来让他们的预测更准确。

类型转换

除非有其他的规定,输入会被转换成float64:

>>> import numpy as np
>>> from sklearn import random_projection

>>> rng = np.random.RandomState(0)
>>> X = rng.rand(10, 2000)
>>> X = np.array(X, dtype='float32')
>>> X.dtype
dtype('float32')

>>> transformer = random_projection.GaussianRandomProjection()
>>> X_new = transformer.fit_transform(X)
>>> X_new.dtype
dtype('float64')

在这个例子中X本来是float32,经过fit_transform(X)被转化成float64。

默认情况下,回归目标被转化成float64,而分类目标会保持不变。

>>> from sklearn import datasets
>>> from sklearn.svm import SVC
>>> iris = datasets.load_iris()
>>> clf = SVC()
>>> clf.fit(iris.data, iris.target)  
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

>>> list(clf.predict(iris.data[:3]))
[0, 0, 0]

>>> clf.fit(iris.data, iris.target_names[iris.target])  
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

>>> list(clf.predict(iris.data[:3]))  
['setosa', 'setosa', 'setosa']

这里,第一个predict()返回了一个int类型的数字,由于iris.target(int型数组)被用在fit中,而第二个predict()返回了一个string数组,由于iris.target_names被用在fit中。

修改和更新参数

预测期的参数在它被sklearn.pipeline.Pipeline.set_params方法构建之后可以更新和修改,多次调用fit()方法可以重写预测期在之前的fit()中学习的东西。

>>> import numpy as np
>>> from sklearn.svm import SVC

>>> rng = np.random.RandomState(0)
>>> X = rng.rand(100, 10)
>>> y = rng.binomial(1, 0.5, 100)
>>> X_test = rng.rand(5, 10)

>>> clf = SVC()
>>> clf.set_params(kernel='linear').fit(X, y)  
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
>>> clf.predict(X_test)
array([1, 0, 1, 1, 0])

>>> clf.set_params(kernel='rbf').fit(X, y)  
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
>>> clf.predict(X_test)
array([0, 0, 0, 1, 0])

这里,SVC()的默认的核函数rbf,构造完成后rbf改成了linear,然后又被修改回了rbf重新训练了预测期并作出了第二次预测。

posted @ 2015-12-10 19:27  何时不晚  阅读(685)  评论(0编辑  收藏  举报