摘要:
Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型, 阅读全文
摘要:
(1) 数据存储及压缩。 针对hive中表的存储格式通常有orc和parquet,压缩格式一般使用snappy。 相比与textfile格式表,orc 占有更少的存储。 因为 hive 底层使用 MR 计算架构,数据流是 hdfs 到磁盘再到hdfs,而且会有很多次, 所以使用 orc 数据格式和 阅读全文
摘要:
HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表,这里遵循机架感应原则(把副本分别放在不同的机架,甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块 阅读全文