摘要: 最近一段时间主要重心在Amazon电商数据分析上,这是一个偏数据分析和可视化的项目。具体来说就是先获取Amazon的商品数据,数据清洗和持久化存储后作为我们自己的数据源。分析模块和可视化模块基于数据进行一系列的操作。 显然,整个项目中最基本,也是最重要的就是前期数据的获取,本篇文章就是针对数据... 阅读全文
posted @ 2014-07-19 16:03 Sky_Money 阅读(6198) 评论(0) 推荐(0) 编辑
摘要: 今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了。我遇到的算是Beautiful... 阅读全文
posted @ 2014-07-19 15:56 Sky_Money 阅读(1561) 评论(0) 推荐(0) 编辑