项目数据标准化补充及可视化(三级下钻)总结

项目要求

  1. 对“所属地区”字段进行标准化,并填充区划代码;当前数据分析:有的表格存在地区字段,部分不存在,重点是对不存在的数据进行补充
  2. 关键词提取补充,还是存在部分数据字段缺失的问题
  3. 行业分类的补充;
  4. 使用echarts进行数据的可视化展示;

实现方法

  1. “地区”字段补充,调用百度的API--百度地图开放平台逆地理编码服务,由单位获取地区,参考:https://www.cnblogs.com/zlc364624/p/12455791.html
  2. 由于每条数据都有“简介”字段,使用了Hanlp进行关键词的提取,参考之前的博客https://www.cnblogs.com/KYin/p/12506202.html
  3. 使用difflib对第二步获取的关键词,以及项目名和国标行业分类进行匹配,取匹配度最高的行业,但是最终的效果还是不太尽人意,仍需改进匹配方法
  4. 实现数据在中国地图的省市县三级下钻,参考:https://github.com/flute/echarts3-chinese-map-drill-down

实现效果

 

posted @ 2020-03-16 19:28  K_Y  阅读(360)  评论(0编辑  收藏  举报