摘要: Spark体系架构 zhuangzai Spark体系架构包括如下三个主要组件: 数据存储 API 管理框架 接下来让我们详细了解一下这些组件。 数据存储: Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源,包括HDFS,HBase,Cassandra等。 API: 阅读全文
posted @ 2017-08-09 18:02 大树2 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1.Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。 2.HDFS(分布式文件系统):它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行), 阅读全文
posted @ 2017-08-09 17:28 大树2 阅读(150) 评论(0) 推荐(0) 编辑
摘要: Hadoop,mapreduce 介绍 59888745@qq.com 大数据工程师是在Linux系统下搭建Hadoop生态系统(cloudera是最大的输出者类似于Linux的红帽), 把用户的交易或行为信息通过HDFS(分布式文件系统)等存储用户数据文件,然后通过Hbase(类似于NoSQL)等 阅读全文
posted @ 2017-08-09 10:17 大树2 阅读(337) 评论(0) 推荐(0) 编辑