随笔分类 - 大数据
摘要:今天完成了根据项目名称和关键词进行行业分类的任务,还进行了数据可视化的展示。 今天为了完成行业分类一直在搜文本分类、机器学习、文本聚类这些,后来发现实在是读不懂,也许是因为我急着完成任务没能静下心来理解的原因。我用了最简单也最不靠谱的方法——文本相似度,我把行业名称与代码存进了python的列表里,
阅读全文
摘要:今天使用python的jieba库完成了提取关键词的任务,并且完善了查找地域的算法,除此之外,还完成了数据可视化的第一步,根据省市县展示项目数量。 昨天查找地域的算法中模拟百度地图搜索请求,传递的参数本来有十几个,后来我为了省事一个个尝试精简,简化到只需要两个参数:qt和wd。前者表示调用查询接口,
阅读全文
摘要:今天在昨天的基础上进一步规范了地域列的取值,以及使用高德地图的api将昨天模拟百度地图搜索请求未找到的500多条数据重新进行查询。除此之外,还看了一些关于python提取关键字的博客。 昨天虽然找到了3500多条数据的地域和行政区划代码,但是由于未考虑到完成单位在其他省份的情况,导致某些地域值只有X
阅读全文
摘要:今天的实验是在上次清洗数据的基础上进行数据分析。根据单位的名称判断所在省市县,需要使用百度地图或者高德地图的接口。 我是使用python模拟百度地图搜索请求来判断所在位置的,但是卡在模拟请求这一步很长时间,每次response返回的都是html页面,并不是真正的json数据。后来才发现是因为网址写的
阅读全文
摘要:实验要求 https://pan.baidu.com/s/1hTnGnxdvgyNaLwckbKUgJA 程序源代码 package cleandata; import java.io.IOException; import org.apache.hadoop.fs.Path; import org
阅读全文
摘要:实验要求及步骤 参考博客:https://blog.csdn.net/qq_41035588/article/details/90514824,但是创建的项目是Map/Reduce项目。其实创建Java项目也可以做,只是需要导入Map/Reduce项目所需要的jar包。 运行结果截图 出现的问题及解
阅读全文