2018 年 10月 18 日随笔档案 - mxgboy

2018年10月18日

摘要： Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C 阅读全文

posted @ 2018-10-18 15:26 mxgboy 阅读(144) 评论(0) 推荐(0) 编辑

Hive简介

摘要：背景和概念 Hive是一个依赖于分布式存储的查询和管理大型数据集的数据仓库。传统的非大数据行业一般都是基于表进行数据存储和管理的，如果由于业务扩张或者其他原因迁移到HDFS平台上，那么需要将传统的SQL查询语句全部翻译成Map-reduce的程序实现，这个工作量是相当庞大的。好在SQL具有严谨和良好阅读全文

posted @ 2018-10-18 11:11 mxgboy 阅读(678) 评论(0) 推荐(0) 编辑

HA模式下的java api访问要点

摘要：在非HA架构的HDFS中，客户端要通过java接口调用HDFS时一般是在JobRunner的类中按照下面的方式：因为nodename只有一个节点所以会在代码中显式的指明要连接哪一个节点；但是在HA模式下有两台namenode节点，并不能按照这种方式，而是下面的方式：其中的ns就是nameserv 阅读全文

posted @ 2018-10-18 10:37 mxgboy 阅读(397) 评论(0) 推荐(0) 编辑

mxgboy

公告