摘要: 1、如何消费已经被消费过的数据? 答:采用不同的group 2、如何自定义去消费已经消费过的数据? Conosumer.properties配置文件中有两个重要参数 auto.commit.enable:如果为true,则consumer的消费偏移offset会被记录到zookeeper。下次con 阅读全文
posted @ 2019-03-27 08:54 李昊宗 阅读(571) 评论(0) 推荐(0) 编辑
摘要: 1、基本概念(了解) ①流(Streaming): 是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看到的图象十分平稳, 而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。 ②常见的流式计算框架 Apache Storm Spark Streami 阅读全文
posted @ 2019-03-26 11:39 李昊宗 阅读(252) 评论(0) 推荐(1) 编辑
摘要: 1、概念 Kafka是一个开源的消息系统。由Scala编写,它具备以下特点: ①消息持久化: 为了从大数据中获取有价值的信息,任何信息的丢失都是负担不起的。使用Kafka时,message会被存储并且会被复制(zk备份)以防止数据丢失。 ②高吞吐量: 设计是工作在普通的硬件设施上多个客户端能够每秒处 阅读全文
posted @ 2019-03-25 12:57 李昊宗 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 1、概念 Spark SQL是一个用来处理结构化数据的Spark组件。 优点: ①SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行 ②SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据) ③SparkSQL支持 阅读全文
posted @ 2019-03-24 09:21 李昊宗 阅读(317) 评论(0) 推荐(1) 编辑
摘要: 1、定义 Spark是一个由scala语言编写的实时计算系统 Spark支持的API包括Scala、Python、Java 、R 2、功能 Spark Core: 将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。 是Spar 阅读全文
posted @ 2019-03-23 14:02 李昊宗 阅读(232) 评论(0) 推荐(1) 编辑
摘要: 1、模式匹配 2、特质(trait) 3、隐式转换 分为隐式转换和参数:可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来 关键字: implicit 1、隐式参数 2、隐式转化: 当一个对象想要调用一个方法,但是这个对象又没有该方法,这时会触发隐式转换。 编译 阅读全文
posted @ 2019-03-22 21:52 李昊宗 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 1、集合的数据结构: array、seq 、set 、map(映射) 2、集合分类 集合分为可变集合和不可变集合(除元组外,元组没有可变和不可变) scala.collection.immutable : 不可变集合的包 scala.collection.mutable : 可变集合的包 3、集合初 阅读全文
posted @ 2019-03-22 20:50 李昊宗 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 1、scala ①定义:Scala设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。 ②特点:优雅、简洁、一行代码抵得上多行Java代码 2、变量和常量、懒值 注 :val就不能再赋值了。与之对应的,var可以在它生命周期 阅读全文
posted @ 2019-03-22 20:42 李昊宗 阅读(250) 评论(0) 推荐(0) 编辑