python_pipeline

pipeline管道机制使用方法：

流水线的输入为一连串的数据挖掘步骤，其中最后一步必须是估计器（Estimator），可理解成分类器
前几步是转换器（Transformer）。输入的数据集经过转换器的处理后，输出的结果作为下一步的输入。

最后，用位于流水线最后一步的估计器对数据进行分类。

#coding=gbk
#sklearn 中pipeline管道机制的使用
 
'''
流水线的功能：
跟踪记录各步骤的操作（以方便地重现实验结果）
对各步骤进行一个封装
确保代码的复杂程度不至于超出掌控范围
'''
import pandas as pd
from sklearn.cross_validation  import train_test_split
from sklearn.preprocessing import LabelEncoder
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                 'breast-cancer-wisconsin/wdbc.data', header=None)
print(data.shape)
x, y = data.values[:,2:],data.values[:,1]
encoder = LabelEncoder()
y= encoder.fit_transform(y)     #将 标签 'm', 'b' 转换成1,0
 
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size= 0.2,random_state= 666)
 
#使用pipeline管道机制
from sklearn.preprocessing import StandardScaler        #规范化，使各特征的均值为1，方差为0
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
 
from sklearn.pipeline import Pipeline
pipe = Pipeline([('sc',StandardScaler()),
                 ('pca',PCA(n_components=2)),
                 ('clf',LogisticRegression(random_state=666))   #设置随机种子，使测试结果复现
                 ])
pipe.fit(x_train, y_train)
print('Test accuracy is %.3f' % pipe.score(x_test, y_test))
# Test accuracy is 0.921

当我们执行 pipe.fit(X_train, y_train)时，首先由StandardScaler在训练集上执行 fit和transform方法，transformed后的数据又被传递给Pipeline对象的下一步，也即PCA()。和StandardScaler一样，PCA也是执行fit和transform方法，最终将转换后的数据传递给 LosigsticRegression
————————————————
版权声明：本文为CSDN博主「蜘蛛侠不会飞」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_40587575/java/article/details/80987742

posted @ 2020-06-28 09:26 pumpkin_J 阅读(1419) 评论(0) 编辑收藏举报

刷新页面返回顶部

pumpkin_J

python_pipeline

公告