随笔分类 - 大数据
摘要:
1 环境搭建 mapreduce作为分布式计算模块,yarn作为作业调度和资源管理模块,区别在于: mapreduce是一种编程模型,可以理解为一个jar包 yarn相当于启动运行mapreduce作业容器的进程 老版本中的mapreduce和yarn是整合在一起的 mapreduce配置可以在提交
阅读全文

摘要:
HDFS,它是一个虚拟文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 模块名称 模块介绍 Common 其他
阅读全文
