摘要: 正文 一,简介 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据 阅读全文
posted @ 2019-06-11 19:23 他山之石·玉 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 正文 一,简介 跟hive没太的关系,就是使用了hive的标准(HQL, 元数据库、UDF、序列化、反序列化机制)。Hive On Spark 使用RDD(DataFrame),然后运行在spark 集群上。 二,shell方式配置和使用hive元数据信息 2.1 文件配置 配置和hive的配置一致 阅读全文
posted @ 2019-06-11 16:59 他山之石·玉 阅读(2965) 评论(0) 推荐(0) 编辑
摘要: 正文 一,简介 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于J 阅读全文
posted @ 2019-06-11 15:56 他山之石·玉 阅读(677) 评论(0) 推荐(1) 编辑