会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
李昊宗
博客园
首页
新随笔
新文章
联系
订阅
管理
上一页
1
2
2019年3月27日
05-spark streaming & kafka
摘要: 1、如何消费已经被消费过的数据? 答:采用不同的group 2、如何自定义去消费已经消费过的数据? Conosumer.properties配置文件中有两个重要参数 auto.commit.enable:如果为true,则consumer的消费偏移offset会被记录到zookeeper。下次con
阅读全文
posted @ 2019-03-27 08:54 李昊宗
阅读(571)
评论(0)
推荐(0)
编辑
2019年3月26日
04-spark streaming
摘要: 1、基本概念(了解) ①流(Streaming): 是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断地送出,使用户听到的声音或看到的图象十分平稳, 而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。 ②常见的流式计算框架 Apache Storm Spark Streami
阅读全文
posted @ 2019-03-26 11:39 李昊宗
阅读(252)
评论(0)
推荐(1)
编辑
2019年3月25日
03-spark kafka
摘要: 1、概念 Kafka是一个开源的消息系统。由Scala编写,它具备以下特点: ①消息持久化: 为了从大数据中获取有价值的信息,任何信息的丢失都是负担不起的。使用Kafka时,message会被存储并且会被复制(zk备份)以防止数据丢失。 ②高吞吐量: 设计是工作在普通的硬件设施上多个客户端能够每秒处
阅读全文
posted @ 2019-03-25 12:57 李昊宗
阅读(355)
评论(0)
推荐(0)
编辑
2019年3月24日
02-spark sql
摘要: 1、概念 Spark SQL是一个用来处理结构化数据的Spark组件。 优点: ①SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行 ②SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据) ③SparkSQL支持
阅读全文
posted @ 2019-03-24 09:21 李昊宗
阅读(317)
评论(0)
推荐(1)
编辑
2019年3月23日
01-spark基础
摘要: 1、定义 Spark是一个由scala语言编写的实时计算系统 Spark支持的API包括Scala、Python、Java 、R 2、功能 Spark Core: 将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。 是Spar
阅读全文
posted @ 2019-03-23 14:02 李昊宗
阅读(232)
评论(0)
推荐(1)
编辑
2019年3月22日
3-scala高级
摘要: 1、模式匹配 2、特质(trait) 3、隐式转换 分为隐式转换和参数:可以在编写Scala程序时故意漏掉一些信息,让编译器去尝试在编译期间自动推导出这些信息来 关键字: implicit 1、隐式参数 2、隐式转化: 当一个对象想要调用一个方法,但是这个对象又没有该方法,这时会触发隐式转换。 编译
阅读全文
posted @ 2019-03-22 21:52 李昊宗
阅读(162)
评论(0)
推荐(0)
编辑
2-scala集合
摘要: 1、集合的数据结构: array、seq 、set 、map(映射) 2、集合分类 集合分为可变集合和不可变集合(除元组外,元组没有可变和不可变) scala.collection.immutable : 不可变集合的包 scala.collection.mutable : 可变集合的包 3、集合初
阅读全文
posted @ 2019-03-22 20:50 李昊宗
阅读(357)
评论(0)
推荐(0)
编辑
1-scala基础
摘要: 1、scala ①定义:Scala设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。 ②特点:优雅、简洁、一行代码抵得上多行Java代码 2、变量和常量、懒值 注 :val就不能再赋值了。与之对应的,var可以在它生命周期
阅读全文
posted @ 2019-03-22 20:42 李昊宗
阅读(250)
评论(0)
推荐(0)
编辑
上一页
1
2