pandas 模块
什么是pandas
pandas是一个python的包,主要用来处理表格格式的文件,可以快速的对表格进行查询,过滤,合并等操作。
pandas的简单使用
pandas读入table格式文件
#读入一个table格式的文件,用制表符分隔,没有头信息
table=pd.read_table("test.lst",header=None,sep="\t")
#对某一列进行正则替换
table[0]=table[0].map(lambda x:x.replace("_","\_"))
#对某一列除以1000*1000取整
table[1]=table[1].map(lambda x: int(x/(1000*1000)))
#对某一列除以1000*1000保留两位小数
table[3]=table[3].map(lambda x: float('%.2f' % (x/(1000*1000))))
pandas写出文件
table.to_table("test.table",sep='\t',index=False)
读取指定的两列
#根据索引取其中两列
mm=df[['Sample_Name','Run']]
将读取的两列存为一个字典
from collections import defaultdict
d = defaultdict(dict)
for date, count in mm.itertuples(index=False):
d[date]=count