2016 年 11月 27 日随笔档案 - coskaka

2016年11月27日

摘要：爬虫爬下来的数据，有个字段含有大量脏数据，如图1所示，现在需要提取出“红色框”中的“作者机构名称”。一开始用的excel，替换、分类、按照模式的快速填充各种都用上了，但是，数据量太大了（有上万条，辛苦机器性能还行）而且你懂得，人工操作肯定有误操作而且分列啥的这些功能适应新不怎么强，结果，弄了小半天阅读全文

posted @ 2016-11-27 22:14 coskaka 阅读(430) 评论(0) 推荐(0) 编辑

pandas中Loc vs. iloc vs. ix vs. at vs. iat?

摘要： loc: only work on indexiloc: work on positionix: You can get data from dataframe without it being in the indexat: get scalar values. It's a very fast 阅读全文

posted @ 2016-11-27 21:12 coskaka 阅读(367) 评论(0) 推荐(0) 编辑

Linux下anaconda的安装

摘要： http://peteryuan.net/use-anaconda/ http://www.jianshu.com/p/03d757283339 阅读全文

posted @ 2016-11-27 19:53 coskaka 阅读(144) 评论(0) 推荐(0) 编辑

coskaka

公告