2018年1月19日
摘要: 1 chunkers=pd.read_csv('dd.csv',chunksize=10000) 2 3 tot=pd.Series([]) 4 5 for piece in chunkers: 6 7 tot=tot.add(piece['dfcol'].value_counts(),fill_value=0)#迭代计数 8 9 tot=tot.order(ascending=Fa... 阅读全文
posted @ 2018-01-19 15:55 hailuo 阅读(3178) 评论(0) 推荐(0) 编辑
摘要: 1 data.drop_duplicates()#data中一行元素全部相同时才去除 2 data.drop_duplicates(['a','b'])#data根据’a','b'组合列删除重复项,默认保留第一个出现的值组合。传入参数keep='last'则保留最后一个 3 4 data.drop_ 阅读全文
posted @ 2018-01-19 15:26 hailuo 阅读(31479) 评论(0) 推荐(0) 编辑
摘要: 更多grouby的用法 http://blog.csdn.net/youngbit007/article/details/54288603 阅读全文
posted @ 2018-01-19 14:30 hailuo 阅读(568) 评论(0) 推荐(0) 编辑
摘要: df['dfda']=pd.Series(df[['a','b','v']].idxmax(axis=1),index=df.index)#横向比较最大值并返回列名,比循环快N倍 阅读全文
posted @ 2018-01-19 11:20 hailuo 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 更多数据类型转换 https://vimsky.com/article/3694.html 阅读全文
posted @ 2018-01-19 11:14 hailuo 阅读(6254) 评论(0) 推荐(0) 编辑
摘要: 1 import datetime 2 from pandas.tseries.offsets import Day 3 now_time =datetime.datetime.now()#获取当前时间 4 yes_time = (now_time -1*Day()).strftime('%Y-%m-%d')#格式化 阅读全文
posted @ 2018-01-19 11:00 hailuo 阅读(6248) 评论(0) 推荐(0) 编辑