摘要: 自如网杭州市租房数据分析 经过 "数据爬取" 和 "数据清洗" 后,终于到了数据分析的部分。具体从探索型数据分析和验证型数据分析两部分进行。探索型数据分析是主要为了了解属性的分布、属性之间的相关性,验证型数据分析则用来预测租金价格。 1.探索型数据分析 (1)首先看一下数值型属性的统计情况 房间价格 阅读全文
posted @ 2018-05-17 12:52 toastavocado 阅读(2111) 评论(1) 推荐(6) 编辑
摘要: 杭州租房数据清洗 由于 "上篇文章" 中爬取下来的数据不能直接用来分析,比如一个属性包含多个信息、数值型属性包含单位等,因此首先要对数据做一定的清洗,处理成需要的格式 。 1.读取数据,初始属性解释 初始属性解释: apartment:公寓名称及房间数 area:公寓所处地区,包括城区、街道或某个范 阅读全文
posted @ 2018-05-17 12:41 toastavocado 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 爬取自如网站杭州市的租房信息 最近看到 "自如网" 的整体网页结构比较简洁,因此尝试获取一下杭州市的租房情况,简单做一个分析。 需要获取的内容如图所示 1.获取网页内容 2.找到有效信息所在标签 获取内容的部分截图 输出: 18 3.整理标签内容 单页爬取结果打印 爬取杭州市所有租房信息,并存入文件 阅读全文
posted @ 2018-05-17 12:38 toastavocado 阅读(454) 评论(0) 推荐(0) 编辑