Pandas和常见数据处理小模块
前言
pandas 确实很好用, 但是网上的教程参差不齐, 找到可以用的比较花时间, 所以自己总结了一些会常常用到的。
Pandas部分
根据某一列找另一列
import pandas as pd
# 根据imagename 通过查找 Image , 得到相应的Cloth_label列的数据
label = train_lable.loc[train_lable.Image == imagename]['Cloth_label']
根据条件变换每一列
当label为 y时, 变为1, label为 n时, 变为0
# train_set 为DataFrame label 为要转换的列标题
label = 'sentiment'
labels = getattr(train_set, label).map({"y":1, "n": 0})
按照标签保存为DataFrame
output = pd.DataFrame(data={"id": test_id_arr, "polarity": result_sem})
数据处理
切分数据集和测试集
import pandas as pd
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)
print(len(x_train))
print(len(x_test))
其他
计时
import time
time_start = time.time()
time_end=time.time()
print('reading time : ',time_end-time_start,'s')