pandas库dateframe介绍
Pandas>>sample()函数 随机选取若干行
功能说明
有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。
功能相似:numpy.random.choice
函数名:
DataFrame.sample(n=None,frac=None,replace=False,weights=None,random_state=None,axis=None)
import pandas as pdimport numpy as npdata_test= pd.DataFrame([['张一',1,1], ['张二',2,2], ['张三',3,3], ['张四',4,4], ['张五',5,5], ['张六',6,6,], ['张七',7,7], ['张八',8,8], ['张九',9,9,], ['张十',10,10] ], columns =['name','number_1','number_2'] )data_test
1.抽取的行数
data_test.sample(n=3)
2.frac:抽取行的比例
data_test.sample(frac=0.4)
3.指定权重信息,需要与 行或者列的数目相等,为列表
data_test.sample(frac=0.3,weights=[0.1, 0.2, 0.3,0.1,0.1,0.1,0.1,0.1,0.2,0.3])