04 2022 档案
摘要:1.server is not ready yet 日志显示 {"type":"log","@timestamp":"2022-04-25T15:48:07Z","tags":["warning","migrations"],"pid":3580,"message":"Another Kibana
阅读全文
摘要:1、ES 查询操作 1.1、过滤—先匹配,再过滤 GET movie_index/_search { "query": { "match": { "name": "red" } }, "post_filter": { "term": { "actorList.id": "3" } } } 1.2、过
阅读全文
摘要:1、ElasticSearch 基础概念 1.1、近实时(Near Realtime/NRT) ElasticSearch 是一个近实时的搜索平台。从生成文档索引到文档可搜索,有一个轻微的延迟(通常1s) 1.2、集群(Cluster). ES 默认就是集群状态,整个集群是一份完整、互备的数据。集群
阅读全文
摘要:1、ElasticSearch 基础 1.1、简介 Elasticsearch是一个高度可伸缩的开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据,它通常作为互联网应用的内部搜索引擎,为需要复杂搜索功能的应用提供支持。ElasticSearch是一个基于Luce
阅读全文
摘要:1、日志数据模拟生成 这里模拟日志的思路和采集一样,但是并没有直接将日志生成到文件,而是将日志发送给某一个指定的端口,需要大数据程序员了解流程 (1) 拷贝模拟器(用户行为)内容到hadoop201的/opt/module/rt_applog目录 -rw-rw-r--. 1 hui hui 607
阅读全文
摘要:1、实时&离线 1.1、离线 离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级比较大,计算时间相对较长。例如月初对上月整月,凌晨对前一整天的数据进行计算,最经典的就是Hadoop的 MR 方式。一般是根据前一日/月的数据生成报表,虽然统计的指标报表繁多,但是时效性不高。
阅读全文
摘要:DStream 操作和RDD的操作很类似,分为 Transformations 转换和 Output Operations 输出两种,此外转换操作中还有一些比较复杂的算子,如:updateStateByKey(),transform()以及各种 Window 相关算子。 1、无状态转换操作 无状态转
阅读全文
摘要:1、通过RDD队列创建DStream 测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个DStream处理。 创建方式 def main(args: Array[String]): Unit = { va
阅读全文
摘要:1、Spark Streaming 概述 1.1、离线&实时 离线计算:计算开始前已知所有输入数据,输入数据不会发生变化,一般计算量级较大,计算时间较长,例如月初对上月整月数据或者一天凌晨对前一天数据进行分析计算。一般使用常用hive作为分析引擎。 实时计算:输入数据是可以以序列化的方式一个个并行的
阅读全文
摘要:1、调优的意义 在大数据分析计算领域,Spark已经成为主流的,非常受欢迎的计算引擎之一。Spark的功能涵盖了大数据领域的批处理、类SQL处理、实时计算、机器学习、图计算等多种不同类型的计算操作,应用范围广泛、前景一片大好,今天许多公司作为主流计算引擎使用,大多数Spark使用者,最初都是想提高计
阅读全文
摘要:1、数据准备 本次练习的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付 数据格式 数据采用_分割字段 每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。 如果搜索关键字是null,表示这次不是搜索 如果点击的品类id和产品id是-1表示这次不是点击 下单行
阅读全文
摘要:Spark 为了达到高并发,高吞吐数据处理能力除了封装RDD外,也封装了另外两个数据对象 广播变量:分布式共享只读变量 累加器:分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义 如果我们需要在分布式计算里面分发大对象,例如:集合,字典或者黑白名单等,这个都会有 Driver 端进行分发,
阅读全文
摘要:1、程序的流程控制说明 .在程序中,程序运行的流程控制决定程序是如何执行的,是我们必须掌握的,主要有三大流程控制语句。说明:Scala语言中控制结构和Java语言中的控制结构基本相同,在不考虑特殊应用场景的情况下,代码书写方式以及理解方式都没有太大的区别; 顺序控制 分支控制 循环控制 2、顺序控制
阅读全文
摘要:1、运算符简介 运算符是一种特殊的符号,用以表示数据的运算、赋值和比较等。 算术运算符 赋值运算符 比较运算符(关系运算符) 逻辑运算符 位运算符 2、算术运算符 2.1、算术运算符介绍 算术运算符(arithmetic)是对数值类型的变量进行运算的,在Scala程序中使用的非常多 2.2、算术运算
阅读全文
摘要:Kafka-Eagle框架可以监控Kafka集群的整体运行情况,在生产环境中经常使用。 1、MySQL环境准备 Kafka-Eagle的安装依赖于MySQL,MySQL主要用来存储可视化展示的数据。 链接:https://pan.baidu.com/s/1fRHTwUgJciAT8g8IZhdrFQ
阅读全文
摘要:1、offset位移 1.1、offset的默认维护位置 从0.9版本开始,consumer默认将offset保存在Kafka一个内置的topic中,该topic为__consumer_offsets,Kafka0.9版本之前,consumer默认将offset保存在Zookeeper中 __con
阅读全文
摘要:1、kafka 消费方式 pull(拉)模式:Kafka 消费方式消费速度:10m/s消费速度:20m/s消费速度:50m/s➢push(推)模式:consumer采用从broker中主动拉取数据。Kafka采用这种方式。 push(推)模式:Kafka没有采用这种方式,因为由broker决定消息发
阅读全文
摘要:1.1、副本基本信息 Kafka副本作用:提高数据可靠性。 Kafka默认副本1个,生产环境一般配置为2个,保证数据可靠性;太多副本会增加磁盘存储空间,增加网络上数据传输,降低效率。 Kafka中副本分为:Leader和Follower。Kafka生产者只会把数据发往Leader,然后Followe
阅读全文
摘要:什么是水位线 在事件时间语义下,我们不依赖系统时间,而是基于数据自带的时间戳去定义了一个时钟,用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟,它的前进是靠数据的时间戳来驱动的。但在分布式系统中,这种驱动方式又会有一些问题。因为数据本身在处理转换的过程中会变化,如果遇到窗口聚合这样
阅读全文
摘要:PrettyZoo下载安装 下载 PrettyZoo是一款基于 Apache Curator 和 JavaFX 实现的 Zookeeper 图形化管理客户端。颜值很高,使用方便,非常推荐童鞋们使用。 下载地址 https://github.com/vran-dev/PrettyZoo/release
阅读全文