摘要:
Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C 阅读全文
摘要:
背景和概念 Hive是一个依赖于分布式存储的查询和管理大型数据集的数据仓库。传统的非大数据行业一般都是基于表进行数据存储和管理的,如果由于业务扩张或者其他原因迁移到HDFS平台上,那么需要将传统的SQL查询语句全部翻译成Map-reduce的程序实现,这个工作量是相当庞大的。好在SQL具有严谨和良好 阅读全文
摘要:
在非HA架构的HDFS中,客户端要通过java接口调用HDFS时一般是在JobRunner的类中按照下面的方式: 因为nodename只有一个节点所以会在代码中显式的指明要连接哪一个节点;但是在HA模式下有两台namenode节点,并不能按照这种方式,而是下面的方式: 其中的ns就是nameserv 阅读全文