大数据 - 随笔分类 - 星辰°

数据初级分析分类（4）

摘要：今天完成了根据项目名称和关键词进行行业分类的任务，还进行了数据可视化的展示。今天为了完成行业分类一直在搜文本分类、机器学习、文本聚类这些，后来发现实在是读不懂，也许是因为我急着完成任务没能静下心来理解的原因。我用了最简单也最不靠谱的方法——文本相似度，我把行业名称与代码存进了python的列表里，阅读全文

posted @ 2020-03-15 12:41 星辰° 阅读(137) 评论(0) 推荐(0) 编辑

数据初级分析分类（3）

摘要：今天使用python的jieba库完成了提取关键词的任务，并且完善了查找地域的算法，除此之外，还完成了数据可视化的第一步，根据省市县展示项目数量。昨天查找地域的算法中模拟百度地图搜索请求，传递的参数本来有十几个，后来我为了省事一个个尝试精简，简化到只需要两个参数：qt和wd。前者表示调用查询接口，阅读全文

posted @ 2020-03-14 21:52 星辰° 阅读(140) 评论(0) 推荐(0) 编辑

数据初级分析分类（2）

摘要：今天在昨天的基础上进一步规范了地域列的取值，以及使用高德地图的api将昨天模拟百度地图搜索请求未找到的500多条数据重新进行查询。除此之外，还看了一些关于python提取关键字的博客。昨天虽然找到了3500多条数据的地域和行政区划代码，但是由于未考虑到完成单位在其他省份的情况，导致某些地域值只有X 阅读全文

posted @ 2020-03-13 21:41 星辰° 阅读(229) 评论(0) 推荐(0) 编辑

数据初级分析分类（1）

摘要：今天的实验是在上次清洗数据的基础上进行数据分析。根据单位的名称判断所在省市县，需要使用百度地图或者高德地图的接口。我是使用python模拟百度地图搜索请求来判断所在位置的，但是卡在模拟请求这一步很长时间，每次response返回的都是html页面，并不是真正的json数据。后来才发现是因为网址写的阅读全文

posted @ 2020-03-12 20:02 星辰° 阅读(118) 评论(0) 推荐(0) 编辑

MapReduce实验——数据清洗

摘要：实验要求 https://pan.baidu.com/s/1hTnGnxdvgyNaLwckbKUgJA 程序源代码 package cleandata; import java.io.IOException; import org.apache.hadoop.fs.Path; import org 阅读全文

posted @ 2019-11-13 18:04 星辰° 阅读(710) 评论(0) 推荐(0) 编辑

MapReduce实验——WordCount

摘要：实验要求及步骤参考博客：https://blog.csdn.net/qq_41035588/article/details/90514824，但是创建的项目是Map/Reduce项目。其实创建Java项目也可以做，只是需要导入Map/Reduce项目所需要的jar包。运行结果截图出现的问题及解阅读全文

posted @ 2019-10-30 23:20 星辰° 阅读(457) 评论(0) 推荐(0) 编辑

星辰°

随笔分类 - 大数据

公告