2020 年 8月随笔档案 - 祈欢

2020年暑假（8）

摘要：需求1：求出每一个url被访问的总次数，并将结果输出到一个结果文件中思路：就是一个wordcount map阶段：解析数据，将url作为key，1作为value发出 reduce阶段：将一组数据的value累加需求2：求出每个网站被访问次数最多的top3个url《分组TOPN》思路： map 阅读全文

posted @ 2020-08-31 17:57 祈欢阅读(110) 评论(0) 推荐(0) 编辑

2020年暑假（7）

摘要：yarn集群配置启动 1.yarn-site.xml <property><name>yarn.resourcemanager.hostname</name><value>hdp-01</value></property> <property><name>yarn.nodemanager.aux-s 阅读全文

posted @ 2020-08-21 17:30 祈欢阅读(138) 评论(0) 推荐(0) 编辑

2020年暑假（6）

摘要：marpreduce运行平台YARN marpreduce程序应该是在很多机器上并行启动,并且先执行map task,当众多的map task都处理完自己的数据后,还需要启动众多的reduce task,需要一个自动化的调度平台,hadoop中就为运行mapreduce之类的分布式运算程序开发了一个阅读全文

posted @ 2020-08-19 11:13 祈欢阅读(48) 评论(0) 推荐(0) 编辑

2020年暑假（5）

摘要：hdfs的核心工作原理--namenode元数据管理要点 1.什么是元数据? hdfs的目录结构及每一个文件块的信息(块的id,块的副本数量,块的存放位置datanode) 2.元数据由namenode负责管理 3.namenode把元数据记录在哪里? namenode的实时的完整的元数据存储在内存阅读全文

posted @ 2020-08-19 11:05 祈欢阅读(110) 评论(0) 推荐(0) 编辑

2020年暑假（4）

摘要：1.Hadoop常用命令单进程启动 start-dfs.sh 查看指定目录下内容 hdfs dfs -ls [目录] 创建目录 hdfs dfs -mkdir [新目录] 打开文件 hdfs dfs -cat [文件路径] 重命名文件 hdfs dfs -mv [原文件名] [新文件名] 上传文件阅读全文

posted @ 2020-08-19 10:43 祈欢阅读(110) 评论(0) 推荐(0) 编辑

2020年暑假（3）

摘要：开始学习Hadoop 1、什么是hadoop hadoop中有3个核心组件：分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架：MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台：YARN —— 帮用户调度大量的mapreduce程序阅读全文

posted @ 2020-08-15 16:15 祈欢阅读(103) 评论(0) 推荐(0) 编辑

2020年暑假（2）

摘要：元组 # 不能被修改 tuple1 = (1, 2, 3, 4) tuple1[1] tuple1[:5] a = (1) # int b = (1,) # tuple # 更新和删除 temp = ('a', 'b', 'c') temp = temp[:2] + ('d',) + temp[2: 阅读全文

posted @ 2020-08-07 23:22 祈欢阅读(125) 评论(0) 推荐(0) 编辑

祈欢

08 2020 档案

公告