scikit-learn学习
载入数据
在scikit-learn之中,可以使用库中固有的数据,如著名的花朵数据。载入方式如下:
from sklearn import datasets #引入scikit-learn中的数据集 iris = datasets.load_iris() #载入花朵数据
如果想要导入自己的数据的话,可以利用numpy协助。假如你要导入的数据是M行N列。
import numpy as np f = open("filename.txt")#填入文件路径 f.readline() # skip the header会自动跳过表头 data = np.loadtxt(f)#得到纯矩阵 X = data[:, 1:] # select columns 1 through end对矩阵之中的数据进行选择 Y= data[:, 0] # select column 0, the stock price同上
数据如果是libsvm格式的话,可以这么做
from sklearn.datasets import load_svmlight_file X_train, y_train = load_svmlight_file("/path/to/train_dataset.txt")#注意路径的正确性 X_train.todense()#将稀疏矩阵转化为完整特征矩阵