05 2018 档案
摘要:自如网杭州市租房数据分析 经过 "数据爬取" 和 "数据清洗" 后,终于到了数据分析的部分。具体从探索型数据分析和验证型数据分析两部分进行。探索型数据分析是主要为了了解属性的分布、属性之间的相关性,验证型数据分析则用来预测租金价格。 1.探索型数据分析 (1)首先看一下数值型属性的统计情况 房间价格
阅读全文
摘要:杭州租房数据清洗 由于 "上篇文章" 中爬取下来的数据不能直接用来分析,比如一个属性包含多个信息、数值型属性包含单位等,因此首先要对数据做一定的清洗,处理成需要的格式 。 1.读取数据,初始属性解释 初始属性解释: apartment:公寓名称及房间数 area:公寓所处地区,包括城区、街道或某个范
阅读全文
摘要:爬取自如网站杭州市的租房信息 最近看到 "自如网" 的整体网页结构比较简洁,因此尝试获取一下杭州市的租房情况,简单做一个分析。 需要获取的内容如图所示 1.获取网页内容 2.找到有效信息所在标签 获取内容的部分截图 输出: 18 3.整理标签内容 单页爬取结果打印 爬取杭州市所有租房信息,并存入文件
阅读全文