项目数据标准化补充及可视化(三级下钻)总结
项目要求
- 对“所属地区”字段进行标准化,并填充区划代码;当前数据分析:有的表格存在地区字段,部分不存在,重点是对不存在的数据进行补充
- 关键词提取补充,还是存在部分数据字段缺失的问题
- 行业分类的补充;
- 使用echarts进行数据的可视化展示;
实现方法
- “地区”字段补充,调用百度的API--百度地图开放平台逆地理编码服务,由单位获取地区,参考:https://www.cnblogs.com/zlc364624/p/12455791.html
- 由于每条数据都有“简介”字段,使用了Hanlp进行关键词的提取,参考之前的博客https://www.cnblogs.com/KYin/p/12506202.html
- 使用difflib对第二步获取的关键词,以及项目名和国标行业分类进行匹配,取匹配度最高的行业,但是最终的效果还是不太尽人意,仍需改进匹配方法
- 实现数据在中国地图的省市县三级下钻,参考:https://github.com/flute/echarts3-chinese-map-drill-down
实现效果