sklearn 划分数据集。

1.sklearn.model_selection.train_test_split随机划分训练集和测试集

　　　　函数原型：

　　　　　　X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)

　　　　参数解释：　

　　train_data：所要划分的样本特征集

　　train_target：所要划分的样本结果

　　test_size：样本占比，如果是整数的话就是样本的数量

　　random_state：是随机数的种子。

　　　随机数种子的意义在于，如何区分这个数据集，完全是按照随机数种子来决定，至于怎么决定，我们其实并不关心，比如你分了两次，随机种子都是0，那么你得到的两次划分也一定是一样的。

 1     fromsklearn.cross_validation import train_test_split  
 2     train= loan_data.iloc[0: 55596, :]  
 3     test= loan_data.iloc[55596:, :]  
 4     # 避免过拟合，采用交叉验证，验证集占训练集20%，固定随机种子（random_state)  
 5     train_X,test_X, train_y, test_y = train_test_split(train,  
 6                                                        target,  
 7                                                        test_size = 0.2,  
 8                                                        random_state = 0)  
 9     train_y= train_y['label']  
10     test_y= test_y['label']

、

　　2. kl-fold 划分

将全部训练集S分成k个不相交的子集，假设S中的训练样例个数为m，那么每一个自己有m/k个训练样例，相应的子集为{s₁，s₂，...，s_k}
每次从分好的子集里面，拿出一个作为测试集，其他k-1个作为训练集
在k-1个训练集上训练出学习器模型
把这个模型放到测试集上，得到分类率的平均值，作为该模型或者假设函数的真实分类率

这个方法充分利用了所以样本，但计算比较繁琐，需要训练k次，测试k次

import numpy as np
#KFold
from sklearn.model_selection import KFold
X=np.array([[1,2],[3,4],[5,6],[7,8],[9,10],[11,12]])
y=np.array([1,2,3,4,5,6])
kf=KFold(n_splits=2)    #分成几个组
kf.get_n_splits(X)
print(kf)

for train_index,test_index in kf.split(X):
    print("Train Index:",train_index,",Test Index:",test_index)
    X_train,X_test=X[train_index],X[test_index]
    y_train,y_test=y[train_index],y[test_index]
    #print(X_train,X_test,y_train,y_test)
#KFold(n_splits=2, random_state=None, shuffle=False) #Train Index: [3 4 5] ,Test Index: [0 1 2] #Train Index: [0 1 2] ,Test Index: [3 4 5]

more:http://www.cnblogs.com/nolonely/p/7007432.html

posted @ 2017-11-02 19:01 不说话的汤姆猫阅读(2268) 评论(0) 编辑收藏举报

刷新页面返回顶部

不说话的汤姆猫

sklearn 划分数据集。

公告