摘要: Spark作为一个基于内存的大数据计算框架,可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据: 通过Hadoop方式操作已经存在的文件目录 通过spark自带的hadoopconf方式操作已经存在文件目录 阅读全文
posted @ 2018-11-28 16:56 mxgboy 阅读(6780) 评论(0) 推荐(0) 编辑
摘要: SparkSQL简介 SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行 阅读全文
posted @ 2018-11-28 16:25 mxgboy 阅读(1853) 评论(0) 推荐(0) 编辑
摘要: 1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 阅读全文
posted @ 2018-11-28 11:06 mxgboy 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 参考:https://www.cnblogs.com/starwater/p/6841807.html 在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是sp 阅读全文
posted @ 2018-11-28 10:52 mxgboy 阅读(7926) 评论(0) 推荐(0) 编辑
摘要: scala中用lazy定义的变量叫做惰性变量,会实现延迟加载。惰性变量只能是不可变的变量。并且只有在调用惰性变量的时候才会被初始化。 init function invoked! after init function () 当property被声明为惰性变量时的代码如下 after init fu 阅读全文
posted @ 2018-10-19 16:12 mxgboy 阅读(199) 评论(0) 推荐(0) 编辑
摘要: scala语言量大特性:面向对象+函数式编程 Scala的类型 val指的是引用不可变,而不是值。 值类型 Byte Char Short Int Long Float Double Byte Char Short Int Long Float Double 引用类型 String 自定义类型 St 阅读全文
posted @ 2018-10-19 15:59 mxgboy 阅读(161) 评论(0) 推荐(0) 编辑
摘要: Apache Spark是一个针对大规模数据的快速、统一处理引擎。 One stack rule them all 1-Stream Processing :spark Streaming 2-Ad-hoc-Queries :Spark SQL 3-Batch Processing: Spark C 阅读全文
posted @ 2018-10-18 15:26 mxgboy 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 背景和概念 Hive是一个依赖于分布式存储的查询和管理大型数据集的数据仓库。传统的非大数据行业一般都是基于表进行数据存储和管理的,如果由于业务扩张或者其他原因迁移到HDFS平台上,那么需要将传统的SQL查询语句全部翻译成Map-reduce的程序实现,这个工作量是相当庞大的。好在SQL具有严谨和良好 阅读全文
posted @ 2018-10-18 11:11 mxgboy 阅读(678) 评论(0) 推荐(0) 编辑
摘要: 在非HA架构的HDFS中,客户端要通过java接口调用HDFS时一般是在JobRunner的类中按照下面的方式: 因为nodename只有一个节点所以会在代码中显式的指明要连接哪一个节点;但是在HA模式下有两台namenode节点,并不能按照这种方式,而是下面的方式: 其中的ns就是nameserv 阅读全文
posted @ 2018-10-18 10:37 mxgboy 阅读(397) 评论(0) 推荐(0) 编辑
摘要: NN中元数据的可靠性是可以保证的,但是其可用性并不高,因为Namenode是单节点的,所以一旦这个节点不能工作,那么整个hdfs都不能工作,但是由于SecondaryNameNode的机制,所以,即便NameNode不能工作,元数据也不会丢失,人为介入之后是可以恢复的,不会导致数据丢失。因此可靠性高 阅读全文
posted @ 2018-10-16 11:19 mxgboy 阅读(1804) 评论(0) 推荐(0) 编辑