摘要: 1.1 MapReduce 是什么 MapReduce 是一种分布式的离线计算框架,是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。将自己的程序运行在分布式系统上。概念是:"Map(映射)"和"Reduce(归约)"。 指定一个 Map( 映射) ) 函数,用来把一组键值对映射成一组新的 阅读全文
posted @ 2018-08-01 09:40 路人庄 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 本文主要以个人工作学习总结为主,同时也为了方便更多的兴趣爱好者参与学习交流,现将具体的搭建步骤分享如下: 一.基础环境 1.1 jdk的安装与配置 Hadoop是用Java开发的,Hadoop的编译及MapReduce的运行都需要使用JDK。 ①上传jdk压缩包:这里使用的是WinScp工具 上传j 阅读全文
posted @ 2018-07-30 17:15 路人庄 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 利用python来操作spark的词频统计,现将过程分享如下: 1.新建项目:(这里是在已有的项目中创建的,可单独创建wordcount项目) ①新建txt文件: wordcount.txt (文件内容: 跟词频统计(一)中文件一致) ②创建py文件: word.py 打印结果: 2.如果词频统计的 阅读全文
posted @ 2018-07-28 00:03 路人庄 阅读(1274) 评论(0) 推荐(0) 编辑
摘要: 利用Linux系统中安装的spark来统计: 1.选择目录,并创建一个存放文本的目录,将要处理的文本保存在该目录下以供查找操作: ① cd /usr/local ②mkdir mycode ③ cd mycode ④查看当前新目录: ll ⑤新建文本: vim wordcount.txt (文本内容 阅读全文
posted @ 2018-07-27 23:58 路人庄 阅读(2407) 评论(0) 推荐(0) 编辑