实时数仓-Spark Streaming - 随笔分类 - 晓枫的春天

首单分析（二）

摘要：1、数据采集——maxwell 实现 1.1、maxwell 介绍 Maxwell 是由美国zendesk开源，用java编写的Mysql实时抓取软件，其抓取的原理也是基于binlog。 1.2、maxwell 与 canal 对比 Maxwell没有canal那种server+client模式，只阅读全文

posted @ 2022-05-08 08:28 晓枫的春天阅读(48) 评论(0) 推荐(0) 编辑

首单分析（一）

摘要：1、需求分析 1.1、当日新增付费用户分析按省份|用户性别|用户年龄段，统计当日新增付费用户首单平均消费及人数占比无论是省份名称、用户性别、用户年龄，订单表中都没有这些字段，需要订单（事实表）和维度表（省份、用户）进行关联，形成宽表后将数据写入到ES，通过Kibana进行分析以及图形展示。 1.2 阅读全文

posted @ 2022-05-06 12:14 晓枫的春天阅读(193) 评论(0) 推荐(0) 编辑

日活需求

摘要：1、需求分析&实现思路 1.1、用户首次登录趋势图从项目的日志中获取用户的启动日志，如果是当日第一次启动，纳入统计。将统计结果保存到ES中，利用Kibana进行分析展示 1.2、实现思路第一步：SparkStreaming 消费Kafka数据：Kafka作为数据来源，从kafka中获取日志，ka 阅读全文

posted @ 2022-05-05 08:54 晓枫的春天阅读(114) 评论(0) 推荐(0) 编辑

封装工具类

摘要：今天把项目所需一些工具类进行封装，主要包括一下工具类配置文件加载工具 ES相关工具 Redis 工具 kafka 工具 Offset 维护工具 1、配置文件加载工具类配置文件主要记录些 redis kfka 等相关组件的配置信息，需要有一个工具来对配置文件进行加载。 import java.io 阅读全文

posted @ 2022-05-04 17:19 晓枫的春天阅读(322) 评论(0) 推荐(0) 编辑

ElasticSerach（四）

摘要：今天主要介绍ES API 1、准备工作 1.1、创建 maven 工程引入依赖  <dependency> <groupId>io.searchbox</groupId> <artifactId>jest</artifactId> <version> 阅读全文

posted @ 2022-05-01 20:33 晓枫的春天阅读(45) 评论(0) 推荐(0) 编辑

Kibana启动常见报错信息的解决方案

摘要：1.server is not ready yet 日志显示 {"type":"log","@timestamp":"2022-04-25T15:48:07Z","tags":["warning","migrations"],"pid":3580,"message":"Another Kibana 阅读全文

posted @ 2022-04-30 08:54 晓枫的春天阅读(1289) 评论(0) 推荐(0) 编辑

ElasticSerach（三）

摘要：1、ES 查询操作 1.1、过滤—先匹配，再过滤 GET movie_index/_search { "query": { "match": { "name": "red" } }, "post_filter": { "term": { "actorList.id": "3" } } } 1.2、过阅读全文

posted @ 2022-04-30 08:27 晓枫的春天阅读(26) 评论(0) 推荐(0) 编辑

ElasticSerach（二）

摘要：1、ElasticSearch 基础概念 1.1、近实时（Near Realtime/NRT） ElasticSearch 是一个近实时的搜索平台。从生成文档索引到文档可搜索，有一个轻微的延迟（通常1s） 1.2、集群（Cluster）. ES 默认就是集群状态，整个集群是一份完整、互备的数据。集群阅读全文

posted @ 2022-04-28 16:35 晓枫的春天阅读(43) 评论(0) 推荐(0) 编辑

ElasticSerach（一）

摘要：1、ElasticSearch 基础 1.1、简介 Elasticsearch是一个高度可伸缩的开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据，它通常作为互联网应用的内部搜索引擎，为需要复杂搜索功能的应用提供支持。ElasticSearch是一个基于Luce 阅读全文

posted @ 2022-04-27 07:18 晓枫的春天阅读(67) 评论(0) 推荐(0) 编辑

项目数据准备

摘要：1、日志数据模拟生成这里模拟日志的思路和采集一样，但是并没有直接将日志生成到文件，而是将日志发送给某一个指定的端口，需要大数据程序员了解流程 (1) 拷贝模拟器(用户行为)内容到hadoop201的/opt/module/rt_applog目录 -rw-rw-r--. 1 hui hui 607 阅读全文

posted @ 2022-04-24 20:55 晓枫的春天阅读(99) 评论(0) 推荐(0) 编辑

实时项目概述

摘要：1、实时&离线 1.1、离线离线计算就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级比较大，计算时间相对较长。例如月初对上月整月，凌晨对前一整天的数据进行计算，最经典的就是Hadoop的 MR 方式。一般是根据前一日/月的数据生成报表，虽然统计的指标报表繁多，但是时效性不高。阅读全文

posted @ 2022-04-23 21:42 晓枫的春天阅读(135) 评论(0) 推荐(0) 编辑

滴水穿石不是靠力，而是因为不舍昼夜。

随笔分类 - 实时数仓-Spark Streaming

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论