2022 年 4月随笔档案 - 晓枫的春天

Kibana启动常见报错信息的解决方案

摘要：1.server is not ready yet 日志显示 {"type":"log","@timestamp":"2022-04-25T15:48:07Z","tags":["warning","migrations"],"pid":3580,"message":"Another Kibana 阅读全文

posted @ 2022-04-30 08:54 晓枫的春天阅读(1289) 评论(0) 推荐(0) 编辑

ElasticSerach（三）

摘要：1、ES 查询操作 1.1、过滤—先匹配，再过滤 GET movie_index/_search { "query": { "match": { "name": "red" } }, "post_filter": { "term": { "actorList.id": "3" } } } 1.2、过阅读全文

posted @ 2022-04-30 08:27 晓枫的春天阅读(26) 评论(0) 推荐(0) 编辑

ElasticSerach（二）

摘要：1、ElasticSearch 基础概念 1.1、近实时（Near Realtime/NRT） ElasticSearch 是一个近实时的搜索平台。从生成文档索引到文档可搜索，有一个轻微的延迟（通常1s） 1.2、集群（Cluster）. ES 默认就是集群状态，整个集群是一份完整、互备的数据。集群阅读全文

posted @ 2022-04-28 16:35 晓枫的春天阅读(43) 评论(0) 推荐(0) 编辑

ElasticSerach（一）

摘要：1、ElasticSearch 基础 1.1、简介 Elasticsearch是一个高度可伸缩的开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据，它通常作为互联网应用的内部搜索引擎，为需要复杂搜索功能的应用提供支持。ElasticSearch是一个基于Luce 阅读全文

posted @ 2022-04-27 07:18 晓枫的春天阅读(67) 评论(0) 推荐(0) 编辑

项目数据准备

摘要：1、日志数据模拟生成这里模拟日志的思路和采集一样，但是并没有直接将日志生成到文件，而是将日志发送给某一个指定的端口，需要大数据程序员了解流程 (1) 拷贝模拟器(用户行为)内容到hadoop201的/opt/module/rt_applog目录 -rw-rw-r--. 1 hui hui 607 阅读全文

posted @ 2022-04-24 20:55 晓枫的春天阅读(99) 评论(0) 推荐(0) 编辑

实时项目概述

摘要：1、实时&离线 1.1、离线离线计算就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级比较大，计算时间相对较长。例如月初对上月整月，凌晨对前一整天的数据进行计算，最经典的就是Hadoop的 MR 方式。一般是根据前一日/月的数据生成报表，虽然统计的指标报表繁多，但是时效性不高。阅读全文

posted @ 2022-04-23 21:42 晓枫的春天阅读(135) 评论(0) 推荐(0) 编辑

Spark Streaming DStream 转换操作

摘要：DStream 操作和RDD的操作很类似，分为 Transformations 转换和 Output Operations 输出两种，此外转换操作中还有一些比较复杂的算子，如：updateStateByKey(),transform()以及各种 Window 相关算子。 1、无状态转换操作无状态转阅读全文

posted @ 2022-04-22 05:16 晓枫的春天阅读(393) 评论(0) 推荐(0) 编辑

Spark Streaming DStream 创建方式

摘要：1、通过RDD队列创建DStream 测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理。创建方式 def main(args: Array[String]): Unit = { va 阅读全文

posted @ 2022-04-20 08:01 晓枫的春天阅读(129) 评论(0) 推荐(0) 编辑

Spark Streaming 简介

摘要：1、Spark Streaming 概述 1.1、离线&实时离线计算：计算开始前已知所有输入数据，输入数据不会发生变化，一般计算量级较大，计算时间较长，例如月初对上月整月数据或者一天凌晨对前一天数据进行分析计算。一般使用常用hive作为分析引擎。实时计算：输入数据是可以以序列化的方式一个个并行的阅读全文

posted @ 2022-04-16 16:57 晓枫的春天阅读(577) 评论(0) 推荐(0) 编辑

Spark Core 开发调优

摘要：1、调优的意义在大数据分析计算领域，Spark已经成为主流的，非常受欢迎的计算引擎之一。Spark的功能涵盖了大数据领域的批处理、类SQL处理、实时计算、机器学习、图计算等多种不同类型的计算操作，应用范围广泛、前景一片大好，今天许多公司作为主流计算引擎使用，大多数Spark使用者，最初都是想提高计阅读全文

posted @ 2022-04-15 12:12 晓枫的春天阅读(54) 评论(0) 推荐(0) 编辑

Spark Core 练习

摘要：1、数据准备本次练习的数据是采集电商网站的用户行为数据，主要包含用户的4种行为：搜索、点击、下单和支付数据格式数据采用_分割字段每一行表示用户的一个行为，所以每一行只能是四种行为中的一种。如果搜索关键字是null，表示这次不是搜索如果点击的品类id和产品id是-1表示这次不是点击下单行阅读全文

posted @ 2022-04-13 20:31 晓枫的春天阅读(119) 评论(0) 推荐(0) 编辑

Spark 广播变量&累加器

摘要：Spark 为了达到高并发，高吞吐数据处理能力除了封装RDD外，也封装了另外两个数据对象广播变量：分布式共享只读变量累加器：分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义如果我们需要在分布式计算里面分发大对象，例如：集合，字典或者黑白名单等，这个都会有 Driver 端进行分发，阅读全文

posted @ 2022-04-11 07:09 晓枫的春天阅读(110) 评论(0) 推荐(0) 编辑

流程控制

摘要：1、程序的流程控制说明 .在程序中，程序运行的流程控制决定程序是如何执行的，是我们必须掌握的，主要有三大流程控制语句。说明：Scala语言中控制结构和Java语言中的控制结构基本相同，在不考虑特殊应用场景的情况下，代码书写方式以及理解方式都没有太大的区别；顺序控制分支控制循环控制 2、顺序控制阅读全文

posted @ 2022-04-08 08:02 晓枫的春天阅读(130) 评论(0) 推荐(0) 编辑

Scala 运算符

摘要：1、运算符简介运算符是一种特殊的符号，用以表示数据的运算、赋值和比较等。算术运算符赋值运算符比较运算符(关系运算符) 逻辑运算符位运算符 2、算术运算符 2.1、算术运算符介绍算术运算符(arithmetic)是对数值类型的变量进行运算的，在Scala程序中使用的非常多 2.2、算术运算阅读全文

posted @ 2022-04-07 08:12 晓枫的春天阅读(59) 评论(0) 推荐(0) 编辑

Kafka-Eagle监控

摘要：Kafka-Eagle框架可以监控Kafka集群的整体运行情况，在生产环境中经常使用。 1、MySQL环境准备 Kafka-Eagle的安装依赖于MySQL，MySQL主要用来存储可视化展示的数据。链接：https://pan.baidu.com/s/1fRHTwUgJciAT8g8IZhdrFQ 阅读全文

posted @ 2022-04-06 11:38 晓枫的春天阅读(457) 评论(0) 推荐(0) 编辑

Kafka 消费者（二）

摘要：1、offset位移 1.1、offset的默认维护位置从0.9版本开始，consumer默认将offset保存在Kafka一个内置的topic中，该topic为__consumer_offsets，Kafka0.9版本之前，consumer默认将offset保存在Zookeeper中 __con 阅读全文

posted @ 2022-04-05 11:44 晓枫的春天阅读(188) 评论(0) 推荐(0) 编辑

Kafka 消费者（一）

摘要：1、kafka 消费方式 pull（拉）模式：Kafka 消费方式消费速度：10m/s消费速度：20m/s消费速度：50m/s➢push（推）模式：consumer采用从broker中主动拉取数据。Kafka采用这种方式。 push（推）模式：Kafka没有采用这种方式，因为由broker决定消息发阅读全文

posted @ 2022-04-04 20:55 晓枫的春天阅读(384) 评论(0) 推荐(0) 编辑

Kafka Broker（二）

摘要：1.1、副本基本信息 Kafka副本作用：提高数据可靠性。 Kafka默认副本1个，生产环境一般配置为2个，保证数据可靠性；太多副本会增加磁盘存储空间，增加网络上数据传输，降低效率。 Kafka中副本分为：Leader和Follower。Kafka生产者只会把数据发往Leader，然后Followe 阅读全文

posted @ 2022-04-04 16:20 晓枫的春天阅读(75) 评论(0) 推荐(0) 编辑

Flink 水位线简介

摘要：什么是水位线在事件时间语义下，我们不依赖系统时间，而是基于数据自带的时间戳去定义了一个时钟，用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟，它的前进是靠数据的时间戳来驱动的。但在分布式系统中，这种驱动方式又会有一些问题。因为数据本身在处理转换的过程中会变化，如果遇到窗口聚合这样阅读全文

posted @ 2022-04-02 18:14 晓枫的春天阅读(1301) 评论(5) 推荐(1) 编辑

zookeeper高颜值的可视化工具-PrettyZoo

摘要：PrettyZoo下载安装下载 PrettyZoo是一款基于 Apache Curator 和 JavaFX 实现的 Zookeeper 图形化管理客户端。颜值很高，使用方便，非常推荐童鞋们使用。下载地址 https://github.com/vran-dev/PrettyZoo/release 阅读全文

posted @ 2022-04-01 06:44 晓枫的春天阅读(1093) 评论(0) 推荐(0) 编辑

滴水穿石不是靠力，而是因为不舍昼夜。

04 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论