08 2020 档案

摘要:需求1:求出每一个url被访问的总次数,并将结果输出到一个结果文件中 思路:就是一个wordcount map阶段: 解析数据,将url作为key,1作为value发出 reduce阶段:将一组数据的value累加 需求2:求出每个网站被访问次数最多的top3个url《分组TOPN》 思路: map 阅读全文
posted @ 2020-08-31 17:57 祈欢 阅读(110) 评论(0) 推荐(0) 编辑
摘要:yarn集群配置启动 1.yarn-site.xml <property><name>yarn.resourcemanager.hostname</name><value>hdp-01</value></property> <property><name>yarn.nodemanager.aux-s 阅读全文
posted @ 2020-08-21 17:30 祈欢 阅读(138) 评论(0) 推荐(0) 编辑
摘要:marpreduce运行平台YARN marpreduce程序应该是在很多机器上并行启动,并且先执行map task,当众多的map task都处理完自己的数据后,还需要启动众多的reduce task,需要一个自动化的调度平台,hadoop中就为运行mapreduce之类的分布式运算程序开发了一个 阅读全文
posted @ 2020-08-19 11:13 祈欢 阅读(48) 评论(0) 推荐(0) 编辑
摘要:hdfs的核心工作原理--namenode元数据管理要点 1.什么是元数据? hdfs的目录结构及每一个文件块的信息(块的id,块的副本数量,块的存放位置datanode) 2.元数据由namenode负责管理 3.namenode把元数据记录在哪里? namenode的实时的完整的元数据存储在内存 阅读全文
posted @ 2020-08-19 11:05 祈欢 阅读(110) 评论(0) 推荐(0) 编辑
摘要:1.Hadoop常用命令 单进程启动 start-dfs.sh 查看指定目录下内容 hdfs dfs -ls [目录] 创建目录 hdfs dfs -mkdir [新目录] 打开文件 hdfs dfs -cat [文件路径] 重命名文件 hdfs dfs -mv [原文件名] [新文件名] 上传文件 阅读全文
posted @ 2020-08-19 10:43 祈欢 阅读(110) 评论(0) 推荐(0) 编辑
摘要:开始学习Hadoop 1、什么是hadoop hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序 阅读全文
posted @ 2020-08-15 16:15 祈欢 阅读(103) 评论(0) 推荐(0) 编辑
摘要:元组 # 不能被修改 tuple1 = (1, 2, 3, 4) tuple1[1] tuple1[:5] a = (1) # int b = (1,) # tuple # 更新和删除 temp = ('a', 'b', 'c') temp = temp[:2] + ('d',) + temp[2: 阅读全文
posted @ 2020-08-07 23:22 祈欢 阅读(125) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示