跟 Google 学 machineLearning [2] -- 关于 classifier.fit 的 warning

tensorfllow 的进化有点快。学习的很多例子已经很快的过时了,这里记录一些久的例子里被淘汰的方法,供后面参考。

我系统现在安装的是 tensorflow 1.4.1。

主要是使用了下面的代码后,出现 warning:

from tensorflow.contrib import learn

myclassifier = learn.DNNClassifier(hidden_units=[10, 20, 10], n_classes=3)

myclassifier.fit(x_train_array, y_train_array)

warning:

calling fit whith x is deprecated and will be removed after 2016...

解决方法,按照 warning 里的提示,搜了一下,发现,引入 SKCompat,并通过它来调用 classifier,即可使用原来的 fit 函数:

from tensorflow.contrib.learn.python import SKCompat

feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]

classifier = SKCompat( learn.DNNClassifier(feature_columns=feature_columns,
        hidden_units=[10, 20, 10],
        n_classes=3) )

 

但是,使用 SKCompat 并没有真正的让 classifier 变成原来那个,只是改变了数据输入方式而已。从 pydoc 看到 SKCompat 共重写了三个函数:

1. fit,可以像原来一样,使用两个 array list 来进行数据填充。

2. predict,并不是原来的 predict,而是新 tensorflow.contrib.learn.Estimator 中的 predict,同样是使用 array 来喂数据。它的返回值也不是一个 array,反正我还没看懂到底它是个啥。

3. score,事实上就是新的 ensorflow.contrib.learn.Evaluable 中的 evaluate,同上,使用 array 来喂数据。

 

所以,即使使用过 SKCompat 之后,也还是没法用原来 predict 取得 y_test_prediction, 然后与 y_test 做比较。但是,你可以调用 score 得到一个 dic,其中 ["accuracy"]就是准确度评分。

accuracy_score = classifier.score(x_test, y_test)["accuracy"]

 使用 predict ,要用下面的方法打印出可以看懂的结果(最新的手册上说 predict 的返回值是个 intertor,要用下面的方式取结果;我实验的结果是,我这里的返回值是个 dict, key 为 'classes'的就是我们要的内容了,具体的见最后的代码,这是我今天实验的最终代码;所以,tensor 又进化了):

y=classifier.predict(x_test)
predictions = list(p["predictions"] for p in itertools.islice(y, 6))
print("Predictions: {}".format(str(predictions)))

上面的 6 是 x_test 元素的个数。

===================================================

分割线

===================================================

新的 classifer 中,输入全部用的是 input_func 。这是上面报错的根本原因。

为什么要用 input_func 呢?官方给出的说法大概是,array 只适合小数据量时候使用。。。毕竟 array 的大小是有限的。这看起来完全没什么毛病。

官方给出的最新的方法(2017-12-25)是:

import numpy as np

training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)

train_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"x": np.array(training_set.data)},
    y=np.array(training_set.target),
    num_epochs=None,
    shuffle=True)

classifier.train(input_fn=train_input_fn, steps=2000)

载入一个 datasets 之后,直接调用 estimator.inputs 中的 numpy.input_fn 来生成需要的 input_fn,后面给 classifier 喂数据,就喂这个 train_input_fn 就可以了。需要注意的是,这里传入的是函数 input_fn=train_input_fn, 而不是函数的返回值 input_fn=train_input_fn()。闭包?

或者,你想使用一个可以传递参数的 input_func,官方给出了三种方法(茴香豆的茴字也有三种写法,mmp):

A)写个 wrapper

def my_input_fn(data_set):
  ...

def my_input_fn_training_set():
  return my_input_fn(training_set)

classifier.train(input_fn=my_input_fn_training_set, steps=2000)

B)使用 functools.partial

classifier.train(
    input_fn=functools.partial(my_input_fn, data_set=training_set),
    steps=2000)

C) 使用 lamda

classifier.train(input_fn=lambda: my_input_fn(training_set), steps=2000)

 

反正,在我看来,是越来越麻烦了,但是,现在它毕竟是一个有用的工具,还是要用的。

 

============

from sklearn import metrics
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.contrib import learn
import numpy as np
from tensorflow.contrib.learn.python import SKCompat
import itertools

iris = learn.datasets.load_dataset('iris')

print iris.data
print iris.target

x_train, x_test, y_train, y_test = train_test_split(
        iris.data, iris.target, test_size=0.2, random_state=42)

feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]

classifier = SKCompat( learn.DNNClassifier(feature_columns=feature_columns,
        hidden_units=[10, 20, 10],
        n_classes=3) )

classifier.fit(x_train, y_train, steps=200)
accuracy_score = classifier.score(x_test, y_test)["accuracy"]
print('Accuracy:{0:f}'.format(accuracy_score))

predictions=classifier.predict(x_test)['classes']
print("Predictions: {}".format(str(predictions)))

 

posted @ 2017-12-25 17:07  Biiigfish  阅读(2654)  评论(0编辑  收藏  举报