摘要: yarn在hadoop第一版中是没有的,在第二版中才出现,yarn是有一个resoucemanager管理着下面集群很多的cpu和存储器, yarn负责整个集群资管的管理。nodemaster是每个节点服务器的资源管理,Applicationmaster是每个任务的老大, conteiner是容器, 阅读全文
posted @ 2021-09-06 16:21 帅超007 阅读(47) 评论(0) 推荐(0) 编辑
摘要: hdfs是一个结构分明的存储结构,由三个部分组成,首先是存储数据的dataname,这个是存储大量数据的地方, 其次是namenode,这个类似于每本书开篇的索引目录,所有的内容都被罗列在内,这样便于查询, 第三个部分是用来备份部分内容的,在数据丢失的时候会起到一定的作用。 阅读全文
posted @ 2021-09-06 16:16 帅超007 阅读(62) 评论(0) 推荐(0) 编辑
摘要: hadoop是一种和大数据有关的技术,经过一定的了解后知道hadoop有三个版本,其中第二个版本是我感兴趣的一个, 他分为四个部分,首先hdfs是存储数据的,其次yarn是分配数据的,最后mapreduce是用来计算的 阅读全文
posted @ 2021-09-06 16:12 帅超007 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 大数据生态体系分为数据来源层,数据传输层,数据存储层,资源管理层,数据计算层和任务调度层,其中结构化数据库为我们熟悉的 数据库,文件日志这种半结构化的文本也囊括在内,甚至视频和ppt这种非结构化数据也是在处理范围的,kafka在所有存储工具中最为 强大,三种数据都可以处理并且拥有储存功能 阅读全文
posted @ 2021-09-06 16:10 帅超007 阅读(73) 评论(0) 推荐(0) 编辑