随笔分类 -  实时数仓-Spark Streaming

摘要:1、数据采集——maxwell 实现 1.1、maxwell 介绍 Maxwell 是由美国zendesk开源,用java编写的Mysql实时抓取软件,其抓取的原理也是基于binlog。 1.2、maxwell 与 canal 对比 Maxwell没有canal那种server+client模式,只 阅读全文
posted @ 2022-05-08 08:28 晓枫的春天 阅读(48) 评论(0) 推荐(0) 编辑
摘要:1、需求分析 1.1、当日新增付费用户分析 按省份|用户性别|用户年龄段,统计当日新增付费用户首单平均消费及人数占比无论是省份名称、用户性别、用户年龄,订单表中都没有这些字段,需要订单(事实表)和维度表(省份、用户)进行关联,形成宽表后将数据写入到ES,通过Kibana进行分析以及图形展示。 1.2 阅读全文
posted @ 2022-05-06 12:14 晓枫的春天 阅读(193) 评论(0) 推荐(0) 编辑
摘要:1、需求分析&实现思路 1.1、用户首次登录趋势图 从项目的日志中获取用户的启动日志,如果是当日第一次启动,纳入统计。将统计结果保存到ES中,利用Kibana进行分析展示 1.2、实现思路 第一步:SparkStreaming 消费Kafka数据:Kafka作为数据来源,从kafka中获取日志,ka 阅读全文
posted @ 2022-05-05 08:54 晓枫的春天 阅读(114) 评论(0) 推荐(0) 编辑
摘要:今天把项目所需一些工具类进行封装,主要包括一下工具类 配置文件加载工具 ES相关工具 Redis 工具 kafka 工具 Offset 维护工具 1、配置文件加载工具类 配置文件主要记录些 redis kfka 等相关组件的配置信息,需要有一个工具来对配置文件进行加载。 import java.io 阅读全文
posted @ 2022-05-04 17:19 晓枫的春天 阅读(322) 评论(0) 推荐(0) 编辑
摘要:今天主要介绍ES API 1、准备工作 1.1、创建 maven 工程引入依赖 <!--Java操作ES的客户端工具Jest--> <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version> 阅读全文
posted @ 2022-05-01 20:33 晓枫的春天 阅读(45) 评论(0) 推荐(0) 编辑
摘要:1.server is not ready yet 日志显示 {"type":"log","@timestamp":"2022-04-25T15:48:07Z","tags":["warning","migrations"],"pid":3580,"message":"Another Kibana 阅读全文
posted @ 2022-04-30 08:54 晓枫的春天 阅读(1289) 评论(0) 推荐(0) 编辑
摘要:1、ES 查询操作 1.1、过滤—先匹配,再过滤 GET movie_index/_search { "query": { "match": { "name": "red" } }, "post_filter": { "term": { "actorList.id": "3" } } } 1.2、过 阅读全文
posted @ 2022-04-30 08:27 晓枫的春天 阅读(26) 评论(0) 推荐(0) 编辑
摘要:1、ElasticSearch 基础概念 1.1、近实时(Near Realtime/NRT) ElasticSearch 是一个近实时的搜索平台。从生成文档索引到文档可搜索,有一个轻微的延迟(通常1s) 1.2、集群(Cluster). ES 默认就是集群状态,整个集群是一份完整、互备的数据。集群 阅读全文
posted @ 2022-04-28 16:35 晓枫的春天 阅读(43) 评论(0) 推荐(0) 编辑
摘要:1、ElasticSearch 基础 1.1、简介 Elasticsearch是一个高度可伸缩的开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据,它通常作为互联网应用的内部搜索引擎,为需要复杂搜索功能的应用提供支持。ElasticSearch是一个基于Luce 阅读全文
posted @ 2022-04-27 07:18 晓枫的春天 阅读(67) 评论(0) 推荐(0) 编辑
摘要:1、日志数据模拟生成 这里模拟日志的思路和采集一样,但是并没有直接将日志生成到文件,而是将日志发送给某一个指定的端口,需要大数据程序员了解流程 (1) 拷贝模拟器(用户行为)内容到hadoop201的/opt/module/rt_applog目录 -rw-rw-r--. 1 hui hui 607 阅读全文
posted @ 2022-04-24 20:55 晓枫的春天 阅读(99) 评论(0) 推荐(0) 编辑
摘要:1、实时&离线 1.1、离线 离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级比较大,计算时间相对较长。例如月初对上月整月,凌晨对前一整天的数据进行计算,最经典的就是Hadoop的 MR 方式。一般是根据前一日/月的数据生成报表,虽然统计的指标报表繁多,但是时效性不高。 阅读全文
posted @ 2022-04-23 21:42 晓枫的春天 阅读(135) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示