李昊宗 - 博客园

2019年3月27日

摘要： 1、如何消费已经被消费过的数据？答：采用不同的group 2、如何自定义去消费已经消费过的数据？ Conosumer.properties配置文件中有两个重要参数 auto.commit.enable：如果为true，则consumer的消费偏移offset会被记录到zookeeper。下次con 阅读全文

posted @ 2019-03-27 08:54 李昊宗阅读(571) 评论(0) 推荐(0) 编辑

2019年3月26日

04-spark streaming

摘要： 1、基本概念（了解） ①流（Streaming）：是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断地送出，使用户听到的声音或看到的图象十分平稳，而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。 ②常见的流式计算框架 Apache Storm Spark Streami 阅读全文

posted @ 2019-03-26 11:39 李昊宗阅读(252) 评论(0) 推荐(1) 编辑

2019年3月25日

03-spark kafka

摘要： 1、概念 Kafka是一个开源的消息系统。由Scala编写，它具备以下特点： ①消息持久化：为了从大数据中获取有价值的信息，任何信息的丢失都是负担不起的。使用Kafka时，message会被存储并且会被复制（zk备份）以防止数据丢失。 ②高吞吐量：设计是工作在普通的硬件设施上多个客户端能够每秒处阅读全文

posted @ 2019-03-25 12:57 李昊宗阅读(355) 评论(0) 推荐(0) 编辑

2019年3月24日

02-spark sql

摘要： 1、概念 Spark SQL是一个用来处理结构化数据的Spark组件。优点： ①SparkSQL是一个SQL解析引擎，将SQL解析成特殊的RDD（DataFrame），然后在Spark集群中运行 ②SparkSQL是用来处理结构化数据的（先将非结构化的数据转换成结构化数据） ③SparkSQL支持阅读全文

posted @ 2019-03-24 09:21 李昊宗阅读(317) 评论(0) 推荐(1) 编辑

2019年3月23日

01-spark基础

摘要： 1、定义 Spark是一个由scala语言编写的实时计算系统 Spark支持的API包括Scala、Python、Java 、R 2、功能 Spark Core：将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。是Spar 阅读全文

posted @ 2019-03-23 14:02 李昊宗阅读(232) 评论(0) 推荐(1) 编辑

2019年3月22日

3-scala高级

摘要： 1、模式匹配 2、特质（trait） 3、隐式转换分为隐式转换和参数：可以在编写Scala程序时故意漏掉一些信息，让编译器去尝试在编译期间自动推导出这些信息来关键字： implicit 1、隐式参数 2、隐式转化：当一个对象想要调用一个方法，但是这个对象又没有该方法，这时会触发隐式转换。编译阅读全文

posted @ 2019-03-22 21:52 李昊宗阅读(162) 评论(0) 推荐(0) 编辑

2-scala集合

摘要： 1、集合的数据结构： array、seq 、set 、map（映射） 2、集合分类集合分为可变集合和不可变集合（除元组外，元组没有可变和不可变） scala.collection.immutable : 不可变集合的包 scala.collection.mutable : 可变集合的包 3、集合初阅读全文

posted @ 2019-03-22 20:50 李昊宗阅读(357) 评论(0) 推荐(0) 编辑

1-scala基础

摘要： 1、scala ①定义：Scala设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。 ②特点：优雅、简洁、一行代码抵得上多行Java代码 2、变量和常量、懒值注：val就不能再赋值了。与之对应的，var可以在它生命周期阅读全文

posted @ 2019-03-22 20:42 李昊宗阅读(250) 评论(0) 推荐(0) 编辑