随笔分类 - 实时数仓-Spark Streaming
摘要:1、数据采集——maxwell 实现 1.1、maxwell 介绍 Maxwell 是由美国zendesk开源,用java编写的Mysql实时抓取软件,其抓取的原理也是基于binlog。 1.2、maxwell 与 canal 对比 Maxwell没有canal那种server+client模式,只
阅读全文
摘要:1、需求分析 1.1、当日新增付费用户分析 按省份|用户性别|用户年龄段,统计当日新增付费用户首单平均消费及人数占比无论是省份名称、用户性别、用户年龄,订单表中都没有这些字段,需要订单(事实表)和维度表(省份、用户)进行关联,形成宽表后将数据写入到ES,通过Kibana进行分析以及图形展示。 1.2
阅读全文
摘要:1、需求分析&实现思路 1.1、用户首次登录趋势图 从项目的日志中获取用户的启动日志,如果是当日第一次启动,纳入统计。将统计结果保存到ES中,利用Kibana进行分析展示 1.2、实现思路 第一步:SparkStreaming 消费Kafka数据:Kafka作为数据来源,从kafka中获取日志,ka
阅读全文
摘要:今天把项目所需一些工具类进行封装,主要包括一下工具类 配置文件加载工具 ES相关工具 Redis 工具 kafka 工具 Offset 维护工具 1、配置文件加载工具类 配置文件主要记录些 redis kfka 等相关组件的配置信息,需要有一个工具来对配置文件进行加载。 import java.io
阅读全文
摘要:今天主要介绍ES API 1、准备工作 1.1、创建 maven 工程引入依赖 <!--Java操作ES的客户端工具Jest--> <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version>
阅读全文
摘要:1.server is not ready yet 日志显示 {"type":"log","@timestamp":"2022-04-25T15:48:07Z","tags":["warning","migrations"],"pid":3580,"message":"Another Kibana
阅读全文
摘要:1、ES 查询操作 1.1、过滤—先匹配,再过滤 GET movie_index/_search { "query": { "match": { "name": "red" } }, "post_filter": { "term": { "actorList.id": "3" } } } 1.2、过
阅读全文
摘要:1、ElasticSearch 基础概念 1.1、近实时(Near Realtime/NRT) ElasticSearch 是一个近实时的搜索平台。从生成文档索引到文档可搜索,有一个轻微的延迟(通常1s) 1.2、集群(Cluster). ES 默认就是集群状态,整个集群是一份完整、互备的数据。集群
阅读全文
摘要:1、ElasticSearch 基础 1.1、简介 Elasticsearch是一个高度可伸缩的开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据,它通常作为互联网应用的内部搜索引擎,为需要复杂搜索功能的应用提供支持。ElasticSearch是一个基于Luce
阅读全文
摘要:1、日志数据模拟生成 这里模拟日志的思路和采集一样,但是并没有直接将日志生成到文件,而是将日志发送给某一个指定的端口,需要大数据程序员了解流程 (1) 拷贝模拟器(用户行为)内容到hadoop201的/opt/module/rt_applog目录 -rw-rw-r--. 1 hui hui 607
阅读全文
摘要:1、实时&离线 1.1、离线 离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级比较大,计算时间相对较长。例如月初对上月整月,凌晨对前一整天的数据进行计算,最经典的就是Hadoop的 MR 方式。一般是根据前一日/月的数据生成报表,虽然统计的指标报表繁多,但是时效性不高。
阅读全文