2019 年 6月 11 日随笔档案 - 他山之石·玉

2019年6月11日

摘要：正文一，简介 Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据阅读全文

posted @ 2019-06-11 19:23 他山之石·玉阅读(303) 评论(0) 推荐(0) 编辑

Spark （十一） spark使用hive的元数据信息

摘要：正文一，简介跟hive没太的关系，就是使用了hive的标准（HQL，元数据库、UDF、序列化、反序列化机制）。Hive On Spark 使用RDD（DataFrame），然后运行在spark 集群上。二，shell方式配置和使用hive元数据信息 2.1 文件配置配置和hive的配置一致阅读全文

posted @ 2019-06-11 16:59 他山之石·玉阅读(2965) 评论(0) 推荐(0) 编辑

Spark （十） Spark 的种类型Join

摘要：正文一，简介 Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于J 阅读全文

posted @ 2019-06-11 15:56 他山之石·玉阅读(677) 评论(0) 推荐(1) 编辑

他山之石

公告