mxgboy

2018年11月28日

摘要： Spark作为一个基于内存的大数据计算框架，可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据：通过Hadoop方式操作已经存在的文件目录通过spark自带的hadoopconf方式操作已经存在文件目录阅读全文

posted @ 2018-11-28 16:56 mxgboy 阅读(6837) 评论(0) 推荐(0)

SparkSQL和hive on Spark

摘要： SparkSQL简介 SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，hive应运而生，它是当时唯一运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行阅读全文

posted @ 2018-11-28 16:25 mxgboy 阅读(1913) 评论(0) 推荐(0)

Hive和HBase

摘要： 1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能阅读全文

posted @ 2018-11-28 11:06 mxgboy 阅读(230) 评论(0) 推荐(0)

RDD和Dataframe相互转换

摘要：参考：https://www.cnblogs.com/starwater/p/6841807.html 在spark中，RDD、DataFrame、Dataset是最常用的数据类型，本博文给出笔者在使用的过程中体会到的区别和各自的优势共性： 1、RDD、DataFrame、Dataset全都是sp 阅读全文

posted @ 2018-11-28 10:52 mxgboy 阅读(8027) 评论(0) 推荐(0)

2018年10月19日

scala---lazy

摘要： scala中用lazy定义的变量叫做惰性变量，会实现延迟加载。惰性变量只能是不可变的变量。并且只有在调用惰性变量的时候才会被初始化。 init function invoked! after init function () 当property被声明为惰性变量时的代码如下 after init fu 阅读全文

posted @ 2018-10-19 16:12 mxgboy 阅读(213) 评论(0) 推荐(0)

Scala---初探

摘要： scala语言量大特性：面向对象+函数式编程 Scala的类型 val指的是引用不可变，而不是值。值类型 Byte Char Short Int Long Float Double Byte Char Short Int Long Float Double 引用类型 String 自定义类型 St 阅读全文

posted @ 2018-10-19 15:59 mxgboy 阅读(175) 评论(0) 推荐(0)

2018年10月18日

Spark初探

摘要： Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C 阅读全文

posted @ 2018-10-18 15:26 mxgboy 阅读(155) 评论(0) 推荐(0)

Hive简介

摘要：背景和概念 Hive是一个依赖于分布式存储的查询和管理大型数据集的数据仓库。传统的非大数据行业一般都是基于表进行数据存储和管理的，如果由于业务扩张或者其他原因迁移到HDFS平台上，那么需要将传统的SQL查询语句全部翻译成Map-reduce的程序实现，这个工作量是相当庞大的。好在SQL具有严谨和良好阅读全文

posted @ 2018-10-18 11:11 mxgboy 阅读(692) 评论(0) 推荐(0)

HA模式下的java api访问要点

摘要：在非HA架构的HDFS中，客户端要通过java接口调用HDFS时一般是在JobRunner的类中按照下面的方式：因为nodename只有一个节点所以会在代码中显式的指明要连接哪一个节点；但是在HA模式下有两台namenode节点，并不能按照这种方式，而是下面的方式：其中的ns就是nameserv 阅读全文

posted @ 2018-10-18 10:37 mxgboy 阅读(417) 评论(0) 推荐(0)

2018年10月16日

NameNode中的高可用方案

摘要： NN中元数据的可靠性是可以保证的，但是其可用性并不高，因为Namenode是单节点的，所以一旦这个节点不能工作，那么整个hdfs都不能工作，但是由于SecondaryNameNode的机制，所以，即便NameNode不能工作，元数据也不会丢失，人为介入之后是可以恢复的，不会导致数据丢失。因此可靠性高阅读全文

posted @ 2018-10-16 11:19 mxgboy 阅读(1823) 评论(0) 推荐(0)

公告