摘要: 课程链接:Hadoop大数据平台架构与实践--基础篇 1.MapReduce原理 分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce) 问题1:1000副扑克牌少哪一张牌(去掉大小王) 问题2:100GB的网站访问日志文件,找出访问次数最多的IP地址 2.MapRe 阅读全文
posted @ 2018-06-21 20:44 Johnny、 阅读(3615) 评论(0) 推荐(0) 编辑
摘要: 课程链接:Hadoop大数据平台架构与实践--基础篇 1.HDFS基本概念 HDFS设计架构 块(Block)文件被切分成块进行存储,默认大小为64MB,块是文件存储处理的逻辑单元(备份、查找) NameNode是管理节点,存放文件元数据 客户查询一个访问请求,那么会向上NameNode去查询元数据 阅读全文
posted @ 2018-06-21 16:40 Johnny、 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 在Java8中特别提到了流式计算,在流式计算中就有MapReduce概念。 如果要想使用Hadoop的MapReduce,则必须将要进行统计的文件内容保存在HDFS之中。 下面通过代码来实现一个单词统计的操作,单词统计也被称为Hadoop界的“Hello World”程序。 在给出的文件之中会包含具 阅读全文
posted @ 2018-06-06 01:55 Johnny、 阅读(378) 评论(0) 推荐(0) 编辑
摘要: Hadoop是基于分布式的系统应用,但很多时候我们只是进行简单的测试,没有必要做集群。所谓的伪分布式本质上就是进行单机版的Hadoop配置。 1.在Hadoop中不允许IP地址变更,所以要保证从项目的开发到运行结束状态,都要求IP地址是同一个,如果变更了就要重头来过 (编辑-虚拟网络编辑器) 2.为 阅读全文
posted @ 2018-05-30 08:27 Johnny、 阅读(295) 评论(0) 推荐(0) 编辑
摘要: JDK的安装与配置 本块内容的截图演示均为jdk-10.0.1,但在后续过程中发现jdk版本过高,与我下载的hadoop版本不匹配,所以回退版本至jdk-8u171-linux-x64.tar,但截图中没有体现 1.将JDK的安装包上传Linux系统(JDK下载地址) 如果没有开发包,可使用wget 阅读全文
posted @ 2018-05-27 23:54 Johnny、 阅读(1759) 评论(0) 推荐(0) 编辑
摘要: Linux环境配置 1.环境属性-字体配置 $sudo dpkg-reconfigure console-setup 先选择utf-8 2.解锁root用户 $sudo passwd root $sudo su 切换root用户 3.关闭防火墙并卸载iptables服务 #ufw disable F 阅读全文
posted @ 2018-05-25 23:29 Johnny、 阅读(671) 评论(0) 推荐(0) 编辑
摘要: priority_queue 基本操作: empty() 如果队列为空,则返回真 pop() 删除对顶元素,删除第一个元素 push() 加入一个元素 size() 返回优先队列中拥有的元素个数 top() 返回优先队列队顶元素,返回优先队列中有最高优先级的元素( #队列中为front() ) ba 阅读全文
posted @ 2018-05-20 14:44 Johnny、 阅读(419) 评论(0) 推荐(0) 编辑
摘要: 对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序,是将G中所有顶点排成一个线性序列,使得图中任意一对顶点u和v,若边(u,v)∈E(G),则u在线性序列中出现在v之前。 通常,这样的线性序列称为满足拓扑次序(Topological Order)的序列,简称拓扑 阅读全文
posted @ 2018-05-19 00:02 Johnny、 阅读(283) 评论(0) 推荐(0) 编辑
摘要: 1.Web API Web API是网站的一部分,用于与使用非常具体的URL请求特定信息的程序交互,这种请求称为API调用。 请求的数据将以易于处理的格式(如JSON或CSV)返回,依赖于外部数据的大多数程序都依赖于API调用,如集成社交媒体网站的应用程序。 在浏览器中输入如下地址并按回车: 下面显 阅读全文
posted @ 2018-05-16 22:17 Johnny、 阅读(1131) 评论(0) 推荐(0) 编辑
摘要: 1.提取2010世界人口数据 先查看json文件数据: 这个文件实际上就是一个很长的Python列表,其中每个元素都是一个包含四个键的字典:国家名、国别吗、年份以及表示人口数量的值。 我们尝试打印每个国家2010年的人口数量: 接下来,我们要将数据转化为Pygal能够处理的格式。 2.将字符串转化为 阅读全文
posted @ 2018-05-09 23:54 Johnny、 阅读(4559) 评论(0) 推荐(0) 编辑