摘要:
转自:https://www.cnblogs.com/jun1019/p/6256514.html Kafka存储机制 问题:如何保证消息消费的有序性呢?比如说生产者生产了0到100个商品,那么消费者在消费的时候安装0到100这个从小到大的顺序消费,那么kafka如何保证这种有序性呢?难度就在于,生 阅读全文
摘要:
转自:https://blog.csdn.net/liyiming2017/article/details/82805479 1、Kafka集群结构 实际上kafka的结构图是有些区别的,现在我们看下面的图: producer和consumer想必大家都很熟悉,一个生产消息,一个消费掉消息。这里就不 阅读全文
摘要:
简介 Kafka是一个开源的,分布式的,高吞吐量的消息系统。随着Kafka的版本迭代,日趋成熟。大家对它的使用也逐步从日志系统衍生到其他关键业务领域。特别是其超高吞吐量的特性,在互联网领域,使用越来越广泛,生态系统也越来的完善。同时,其设计思路也是其他消息中间件重要的设计参考。 Kafka原先的开发 阅读全文
摘要:
通过读取文件转换成DataFrame数据写入到mysql中 从mysql中读取数据到DataFrame中 阅读全文
摘要:
整合: 1,需要将hive-site.xml文件拷贝到Spark的conf目录下,这样就可以通过这个配置文件找到Hive的元数据以及数据存放位置。 2,如果Hive的元数据存放在Mysql中,我们还需要准备好Mysql相关驱动,比如:mysql-connector-java-5.1.35.jar。 阅读全文
摘要:
依赖 scala代码 hive-site.xml 还需要把hdfs上的user/hive/warehouse目录 chmod 777,不然程序访问不了会报错 阅读全文
摘要:
依赖 RDD转化成DataFrame:通过StructType指定schema RDD转化成DataFrame:利用反射机制推断schema 阅读全文
摘要:
SparkSql SparkSql是专门为spark设计的一个大数据仓库工具,就好比hive是专门为hadoop设计的一个大数据仓库工具一样。 特性: DataFrame DataFrame前身叫SchemaRDD,在spark1.3.0之后把schemaRDD改名为DataFrame,DataFr 阅读全文
摘要:
简介 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Resilient:弹性,它表示的含义rdd的数据是可以保存在内存中或者是磁盘中。 Distributed:它的数据 阅读全文
摘要:
1、利用scala语言开发spark的worcount程序(本地运行) 2、利用scala语言开发spark的wordcount程序(集群运行) 最后打成jar包 到集群上执行 3、利用java语言开发spark的wordcount程序(本地运行) 阅读全文