摘要: 爬虫爬下来的数据,有个字段含有大量脏数据,如图1所示,现在需要提取出“红色框”中的“作者机构名称”。 一开始用的excel,替换、分类、按照模式的快速填充各种都用上了,但是,数据量太大了(有上万条,辛苦机器性能还行)而且你懂得,人工操作肯定有误操作而且分列啥的这些功能适应新不怎么强,结果,弄了小半天 阅读全文
posted @ 2016-11-27 22:14 coskaka 阅读(430) 评论(0) 推荐(0) 编辑
摘要: loc: only work on indexiloc: work on positionix: You can get data from dataframe without it being in the indexat: get scalar values. It's a very fast 阅读全文
posted @ 2016-11-27 21:12 coskaka 阅读(367) 评论(0) 推荐(0) 编辑
摘要: http://peteryuan.net/use-anaconda/ http://www.jianshu.com/p/03d757283339 阅读全文
posted @ 2016-11-27 19:53 coskaka 阅读(144) 评论(0) 推荐(0) 编辑