hadoop大作业
1.数据准备
2.把CSV添加到/bigdatacase/dataset中
3.检查前5行并删除第一行
4.将csv文件导入hadoop并检查前10行数据情况
5.数据文件导入hive
6.在Hive中查看并分析数据
统计出用户所找小区数量最多的10个小区
可见未来世界花园小区深受人们居住的首选
7.:出现的问题解决:
在HIVE中进行查询时,会出现“无法分配内存”,后来内存调了解决问题
8.使用jieba根据字典分词,字典中存放了东莞所有镇区名字,
wordcloud生成词云图。
9.XGeocoding获取坐标
将爬取生成的csv文件导入XGeocoding中批量获取经纬度
Tableau可视化处理
将XGeocoding获取的坐标整合到csv中,作为数据源导入Tableau,设置维度经纬度为列行,地图使用高德的tms离线包,即可在地图中显示坐标点,再加入价格等参数进行数据可视化处理。
9.可视化分析结果:
房源热力图
热力图更直观的看出来东莞城区和虎门镇房源更加密集
均价图
均价可以间接看出来哪里比较繁华,郊区的均价偏低
房价图
可以看出来,东莞的二手房价大部分都低于或等于平均值(绿色),部分房价高(红色)的一般都是依山傍水