1
2 def split_data(data, prob):
3 """分割数据
4 split data into fractions [prob, 1 - prob]"""
5 results = [], []
6 for row in data:
7 """
8 这里对数据的迭代是有序的
9 但是数据被放在测试集和训练集的可能性是随机的
10 """
11 results[0 if random.random() < prob else 1].append(row)
12 """
13 用random.random()产生随机数字然后与分割的概率比较大小 这样就保证了数据是被随机的分配到不同的set中的。
14 results 是有两个列表组成的,当random.random() 的结果小于 分割概率时,就为results[0]添加元素。否则就为results[1]添加元素。
15
16 这样的写法真是巧妙,
17 使用random.random()首先保证了随机分配,
18 与0或1比较大小来进行分配十分方便,
19 而同时0或1 又可以直接当做results 的索引来为不同的集合添加元素。
20
21 可谓是一举多得。Nice!!!
22 """
23 return results
24
25 def train_test_split(x,y,test_pct):
26 data = zip(x,y) # 使用zip()函数将传入的x,y数据合成为一组成对的数据
27 """【x,y】 x,y本身就是列表所以data 为[[x_ele],[y_ele]] """
28 train,test = split_data(data,1 - test_pct) # 然后调用分割函数 进行随机分割
29 """对data进行分割,分割后的数据与data是相同形状的"""
30 x_train, y_train = zip(*train) # 魔法般的解压技巧
31 """ 使用zip()函数对上一步的数据进行解压,再次分割为x,y数据集"""
32 x_test, y_test = zip(*test)
33 return x_train,x_test,y_train,y_test #最后返回x,y的测试集和训练集 共四个组数据
34