随笔分类 -  大数据

摘要:Mapreduce1 环境搭建 mapreduce作为分布式计算模块,yarn作为作业调度和资源管理模块,区别在于: mapreduce是一种编程模型,可以理解为一个jar包 yarn相当于启动运行mapreduce作业容器的进程 老版本中的mapreduce和yarn是整合在一起的 mapreduce配置可以在提交 阅读全文
posted @ 2019-06-20 23:17 大风歌兮 阅读(476) 评论(0) 推荐(0) 编辑
摘要:分布式文件系统与HDFSHDFS,它是一个虚拟文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 模块名称 模块介绍 Common 其他 阅读全文
posted @ 2019-06-20 22:31 大风歌兮 阅读(476) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示