摘要: 首先,我们来介绍一下什么是Hadoop。 Hadoop最核心的部件有两个,一为HDFS,所谓的HDFS,就是分布式的文件存储系统。 二为Mapreduce,即为分布式的计算系统(分布式离线的计算框架)。 上述的两个部件,解决了大数据的存储问题,还有解... 阅读全文
posted @ 2019-10-24 20:57 Xa_L 阅读(69) 评论(0) 推荐(0) 编辑
摘要: Spark产生的原因: 1、MapReduce具有很多的局限性,仅支持Map和Reduce两种操作,还有迭代效率比较低,不适合交互式的处理,不擅长流式处理。 2、现有的各种计算框架各自为战。 Spark就是在一个统一的框架下能够进行批处理,流式计算和交互式... 阅读全文
posted @ 2019-10-24 20:56 Xa_L 阅读(122) 评论(0) 推荐(0) 编辑