Spack学习2
https://blog.csdn.net/qq_32023541/article/details/79127882
让我们对kafka有个一初步的了解。其实吧,我们知道,数据可以从某个角度分成两类,第一类是批量数据,也就是已经放好的数据,打个比方,就像池塘的水,不会流动,你想怎么计算就怎么计算,你可以统计一下水量,也可以将它们做别的用途,但水就那么多放在那里,你可以把它放在任何一个水库慢慢用。另一类就是流式数据,就是会实时变动的数据,也打个比方,就像河流的水,它不是静止不动的,它是一直在流动的,每时每刻水都在发生改变,也就是你无法像之前一样,把它放在任何水库慢慢用,你只能取出一部分用,当你用完,新的水又流进来了。
kafka就是其中的一条河流,当然不只kafka而已,就像世界上存在很多河流,kafka只是其中之一。kafka是根据topic 来存储数据的,每个topic里面根据不同的偏移量来定位数据。比如下面的代码就是scala语言编写的往topic中发送数据,我们称之为制造者
一。
spark 是一个快速且通用的集群计算平台
基于内存的运算
通用性;降低维护成本
Spack的设计容纳了其它分布式系统拥有的功能
批处理,迭代式计算,交互查询和流处理等
spark是高度开放的;Python Java scala haddoop
二。
spark core:
包含spark的基本功能,任务调度,内存管理,容错机制
内部定义了RDDs,弹性分布式数据集
spark sql:
是spark处理结构化数据的库
spark streaming:
实时数据流处理组件,类似Storm
Spaek Streaming提供了API来提供操作实时流数据。
应用场景,企业中用来从Kafka接收数据做实时统计。
milb:
包含通用机器学习功能的包,分类,聚类,回归
支持起集群上的横向扩展
机器学习
graphx:
处理图的库,并进行图的并行计算
cluster managers:
集群管理,Spark自带一个集群管理是单独调度器。
常见的集群管理包括Hadoop YARN,Apache Mesos
紧密集成的优点
1.spark底层优化了,基于spark的底层组件也会得到相应的优化。
2.紧密继承节省了各个组价组合使用时的部署,测试等时间
3.向spark增加新的组件时,其他组件,可立刻享用新组建的功能。
三。
spark与Hadoop的比较
Hadoop的应用场景:离线处理,对时效性要求不高(数据储存在硬盘中,执行时间一般在几分钟,几个小时)
spark的应用场景:对时效性要求高,机器学习领域(spark中间的数据尽量储存在内存中大大加快了Spark任务的计算速度一般几秒钟或者几分钟,在迭代方面很适合)
Doug Cutting的观点
这是生态系统,每个组件都有其作用,各善其职即可
Spark不具有HDFS的存储能力,要借助HDFS等持久化数据
大数据将会孕育更多的新技术
四。Spark的安装
spark的运行环境:
基于Scala ,运行在JVM,运行环境Java7+
spark下载:
搭建spark不需要Hadoop,下载后解压
虚拟机(Linux)联网状态下,通过 wget+下载链接
Linux解压命令 tar -zxvf spark.....
spark目录
bin目录-可执行文件
core,streaming主要包含组件源代码
examples 包含单机例子
spark的shell:
梳理分布在集群上的数据
可以将数据加载到节点的内存中,因此分布式处理可在秒级完成。
快速迭代计算,实时查询、分析
spark提供了Python shell和Scala shell
Scala shell
/bin/spark-shell
3-2开发第一个Spark程序
创建一个Spark Context
加载程序
把每一行分割成单词
转换成pairs 并且计数
打包:
配置jar包
build
开发完spark程序后,启动集群:
启动master ./sbin/start-master.sh
启动worker ./bin/spark-class
提交作业 ./bin/spark-submit
RDDs介绍
Driver program:(程序入口的地方)
包含程序的main()方法,RDDs的定义和操作
它管理很多节点,我们称为executors
SparkContext:
Driver programs 通过SparkContext 对象访问 Spark。
SparkContext对象代表和一个集群的连接。
在Shell中SparkContext 自动创建好了,就是sc
RDDs:
Resilient distributed datasets(单性分布式数据集,简写RDDs)。
这些RDDs,并行的分布在整个集群中。
RDDs是Spark分发数据和计算的基础抽象类。
一个RDD是一个不可改变的分布式集合对象。
Spark中,所有的计算都是通过RDDs的创建,转换,操作完成的。
一个RDD内部由许多partitions(分片)组成。
分片计算完之后在进行汇总
RDDs的创建方法:
把一个存在的集合传给SparkContext的parallelize)方法,测试用
val rdd =sc.parallelize(Array(1,2,2,4),4)
第1个参数:待并行化处理的集合,第2个参数:分区个数
RDDs的创建方法:
加载外部数据集。
val rddText=sc.textFile("helloSpark.txt")
Scala的匿名函数和类型推断:
lines.filter(line=>line.contains("world"))
定义一个匿名函数,接收一个参数line,
使用line这个String类型变量上的contains()方法
line的类型不需指定,能够推断出来
Map()
Filter()
Flatmap()
集合运算
reduce():
接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。
可以实现,RDD中元素的累加,计数,和其它类型的聚集操作。
reduce():
接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。
可以实现,RDD中元素的累加,计数,和其它类型的聚集操作。
val sum=rdd.reduce(x,y)=>x+y)
take(n):
返回RDD的n个元素(同时尝试访问最少的partitions)。
返回结果是无序的,测试使用。
Collect():
遍历整个RDD,向driver program返回RDD的内容
需要单机内存能够容纳下(因为数据要拷贝给driver,测试使用)
大数据的时候,使用saveAs TextFile() action等。
foreach():
计算RDD中的每个元素,但不返回到本地。
可以配合println()友好的打印出数据。
RDDs的特性
延迟计算(Lazy Evaluation):
Spark对RDDs的计算是,他们第一次使用action操作的时候
这种方式在处理大数据的时候特别有用,可以减少数据的传输
Spark 内部记录metadata 表名transformations操作已经被响应了
加载数据也是延迟计算,数据只有在必要的时候,才会被加载进去
RDD.persist0:
默认每次在RDDs上面进行action操作时,Spark都重新计算RDDs
如果想重复利用一个RDD,可以使用RDD.persist)
unpersist()方法从缓存中移除
combineByKey0:
(createCombiner,merge Value,mergeCombiners,partitioner)
最常用的基于key的聚合函数,返回的类型可以与输入类型不一样
许多基于key的聚合函数都用到了它,像groupByKey0
combineByKey0:
遍历partition中的元素,元素的key,要么之前见过的,要么不是。
如果是新元素,使用我们提供的createCombiner)函数
如果是这个partition中已经存在的key,就会使用mergeValue()函数
合计每个partition的结果的时候,使用mergeCombiners0函数
kafka(流处理平台)
生活中无时无刻都在生产着数据,数据产生到存档会产生日志(存储模式)
有了数据,就有了数据的生产者,同时只有数据流动起来才能产生真正的价值
于是就有了数据流,既然有了数据流就有了数据的消费者。(消费模式)
特性:
1它是可以发布,订阅,记录数据的流 类似一个消息队列
2它是一个数据流存储的一个平台 并且有错误容忍的
3数据产生的时候就进行消息处理
应用场景
1.构建实时数据流管道 处理的数据有很强的数据依赖关系的时候(数据的传输上)
2.构建一个实时的数据处理应用程序 它能转换或者响应这个数据流 (数据的处理上)
Kafka基本概念
◆Producer:消息和数据的生产者,向Kafka的一个topic发布消
息的进程/代码/服务
·Consumer:消息和数据的消费者,订阅数据(Topic)并且处
理其发布的消息的进程/代码/服务
◆Consumer Group:逻辑概念,对于同一个topic,会广播给不
同的group,一个group中,只有一个consumer可以消费该
消息
Kafka基本概念
◆Broker:物理概念,Kafka集群中的每个Kafka节点
◆Topic:逻辑概念,Kafka消息的类别,对数据进行区分、隔离
·Partition:物理概念,Kafka下数据存储的基本单元。一个Topic
数据,会被分散存储到多个Partition,每一个Partition是有序
的
Kafka基本概念
Replication:同一个Partition可能会有多个Replica,多个
Replica之间数据是一样的
Replication Leader:一个Partition的多个Replica上,需要一
个Leader负责该Partition上与Producer和Consumer交互
ReplicaManager:负责管理当前broker所有分区和副本的信
息,处理KafkaController发起的一些请求,副本状态的切换
、添加/读取消息等
Kafka的基本结构
producer Api
Consumer Api
Steams Api
Connectors Api
Kafka特点
1多分区
2多副本
3多订阅者
4基于ZooKeeper
高性能
1高吞吐量
2低延迟
3高并发
4时间复杂度为O(1)
持久化与持久性
1数据可持久化
2容错性
3支持在线水平扩展
4消息自动平衡
Kafka的应用场景;
1消息队列
2行为跟踪
3元信息监控
4日志处理
5 流处理
6事件源
7持久性文件