摘要: 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可; 阅读全文
posted @ 2019-09-11 22:30 花未全开*月未圆 阅读(796) 评论(0) 推荐(0) 编辑
摘要: 一、前提条件 安装了Zookeeper、Hadoop HDFS HA 二、安装Mysql 因为使用量多的是单用户数据库模式,并且数据库使用最多的是mysql 所以在这里选择mysql数据库; 三、Hive安装 启动hive 如果能正常的显示登录到hive的命令行下,就表示安装成功了; 阅读全文
posted @ 2019-09-11 22:29 花未全开*月未圆 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 一、什么是Hive Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据 阅读全文
posted @ 2019-09-11 22:25 花未全开*月未圆 阅读(1483) 评论(0) 推荐(0) 编辑
摘要: 太多column family的影响 每个 MemoryStore分配到的内存较少,进而导致过多的合并,影响性能 几个column family比较合适呢 推荐是:1-3个 划分column family的原则: 1、是否具有相似的数据格式 2、是否具有相似的访问类型 例子一: 相同的rowkey, 阅读全文
posted @ 2019-09-09 12:02 花未全开*月未圆 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 介绍HBase 从功能上讲:HBase主要是解决分布式文件系统HDFS不能随机读写而设计的,HBase是架设在HDFS之上的,所以HBase可以存储海量的数据,HBase又可以支持随机读写,所以HBase是一个支持海量数据随机读写的分布式存储系统。 从架构上讲:HBase中由zookeeper集群、 阅读全文
posted @ 2019-09-09 11:17 花未全开*月未圆 阅读(924) 评论(0) 推荐(0) 编辑
摘要: 批量处理 传统消息中间件的消息发送和消费整体上是针对单条的。对于生产者而言,它先发一条消息,然后broker返回ACK表示已接收,这里产生2次rpc;对于消费者而言,它先请求接受消息,然后broker返回消息,最后发送ACK表示已消费,这里产生了3次rpc(有些消息中间件会优化一下,broker返回 阅读全文
posted @ 2019-09-09 10:30 花未全开*月未圆 阅读(994) 评论(0) 推荐(1) 编辑
摘要: 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, 阅读全文
posted @ 2019-09-08 23:40 花未全开*月未圆 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 一、RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执 阅读全文
posted @ 2019-09-08 23:25 花未全开*月未圆 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-09-08 23:06 花未全开*月未圆 阅读(4716) 评论(0) 推荐(0) 编辑
摘要: object BasicSQLTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName("BasicSQLTest") .getOrCreate() val sessionDf = spark.read.parqu... 阅读全文
posted @ 2019-09-08 23:05 花未全开*月未圆 阅读(247) 评论(0) 推荐(0) 编辑