摘要:
与RDD进行互操作 Spark SQL支持两种不同方法将现有RDD转换为Datasets。第一种方法使用反射来推断包含特定类型对象的RDD的schema。这种基于反射的方法会导致更简洁的代码,并且在编写Spark应用程序时已经知道schema的情况下工作良好。 第二种创建Datasets的方法是通过 阅读全文
摘要:
为什么你写的sql查询慢?为什么你建的索引常失效?通过本章内容,你将学会MySQL性能下降的原因,索引的简介,索引创建的原则,explain命令的使用,以及explain输出字段的意义。助你了解索引,分析索引,使用索引,从而写出更高性能的sql语句。还在等啥子?卷起袖子就是干! 我们先简单了解一下非 阅读全文
摘要:
1.kafka消费者编程模型 分区消费模型 组(group)消费模型 1.1.1.分区消费架构图,每个分区对应一个消费者。 1.1.2.分区消费模型伪代码描述 指定偏移量,用于从上次消费的地方开始消费. 提交offset ,java客户端会自动提交的集群,所以这一步可选。 1.2.1.组消费模型架构 阅读全文
摘要:
好久没发过kafka的文章了,今天整理一下kafka-manager神器。 java环境要求 jdk8 kafkamanager源码下载 https://github.com/yahoo/kafka-manager/releases 编译 先修改sbt源,否则会报错,而且非常慢 在~/.sbt目录下 阅读全文
摘要:
一,架构介绍 生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构。 1,数据先入mysql集群,再入kafka 数据入mysql集群是不可更改的,如何再高效的将数据写入kafka呢? A),在表中存在自增ID的字段,然后根据ID,定期扫描表,然后将数据 阅读全文
摘要:
浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的。纯属个人爱好,希望大家对不足之处批评指正。 一,zookeeper在分布式集群的作用 1,数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是讲发布者将数据发布到zk节点上,共订阅者动态获取数据,实现配 阅读全文
摘要:
最近,浪尖在做flink的项目时source和sink的绑定那块用到了注解,当然新版本1.6以后就变为server load的方式加载。 但是浪尖也是觉得很有毕业讲一下注解,毕竟高级免试也会问答的吧。抗倒这篇文章不错,转发一下。 博主在初学注解的时候看到网上的介绍大部分都是直接介绍用法或者功能,没有 阅读全文
摘要:
背景: 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战: 以上几个挑战形成了一个业务需求模型,即生产者生产(produce)各种信息,消费者消费(consume)(处理分析)这些信息,而在生产者与消费者之间,需要一个沟通两者的桥 阅读全文
摘要:
关于这个标题的内容是面试笔试中比较常见的考题,大家跟随我的博客一起来学习下这个过程。 ? ? JAVA中的序列化和反序列化主要用于: (1)将对象或者异常等写入文件,通过文件交互传输信息; (2)将对象或者异常等通过网络进行传输。 ? ? 那么为什么需要序列化和反序列化呢?简单来说,如果你只是自己同 阅读全文
摘要:
为了方便大家交流Spark大数据,浪尖建了微信群,目前人数过多,只能通过浪尖或者在群里的朋友拉入群。纯技术交流,偶有吹水,但是打广告,不提醒,直接踢出。有兴趣加浪尖微信。 常量使用目的 1,为什么要将常亮提取出来? 2,提取出来怎么定义,定义在interface中,还是class中?有什么区别? 1 阅读全文