摘要: Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C 阅读全文
posted @ 2018-10-18 15:26 mxgboy 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 背景和概念 Hive是一个依赖于分布式存储的查询和管理大型数据集的数据仓库。传统的非大数据行业一般都是基于表进行数据存储和管理的,如果由于业务扩张或者其他原因迁移到HDFS平台上,那么需要将传统的SQL查询语句全部翻译成Map-reduce的程序实现,这个工作量是相当庞大的。好在SQL具有严谨和良好 阅读全文
posted @ 2018-10-18 11:11 mxgboy 阅读(678) 评论(0) 推荐(0) 编辑
摘要: 在非HA架构的HDFS中,客户端要通过java接口调用HDFS时一般是在JobRunner的类中按照下面的方式: 因为nodename只有一个节点所以会在代码中显式的指明要连接哪一个节点;但是在HA模式下有两台namenode节点,并不能按照这种方式,而是下面的方式: 其中的ns就是nameserv 阅读全文
posted @ 2018-10-18 10:37 mxgboy 阅读(397) 评论(0) 推荐(0) 编辑