LZ名約山炮

博客园 首页 新随笔 联系 订阅 管理
上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页

2021年7月7日 #

摘要: 第1章 采集数据 1.1 框架流程 1.2 Canal 入门 1.2.1 什么是 Canal 由于Canal没有官网,所以可以认为它托管在github上的项目就是官网,所以地址是:https://github.com/alibaba/canal 1.2.2 使用场景 1)原始场景: 阿里Otter中 阅读全文
posted @ 2021-07-07 23:20 LZ名約山炮 阅读(194) 评论(0) 推荐(0) 编辑

摘要: 第1章 实时处理模块 1.1 创建模块gmall_realtime 1.2 代码思路 1)消费Kafka中的数据; 2)利用Redis过滤当日已经计入的日活设备; 3)把每批次新增的当日日活信息保存到HBase中; 4)从HBase中查询出数据,发布成数据接口,通可视化工程调用。 1.3 代码开发1 阅读全文
posted @ 2021-07-07 09:18 LZ名約山炮 阅读(270) 评论(0) 推荐(0) 编辑

2021年7月6日 #

摘要: 问题如下:无法解析XXX依赖 1)首先我们先清理一下 2)然后进行编译 3)此时出现如下错误: Cannot access nexus-aliyun (http://maven.aliyun.com/nexus/content/groups/public/) in offline mode and 阅读全文
posted @ 2021-07-06 10:34 LZ名約山炮 阅读(5573) 评论(0) 推荐(0) 编辑

2021年7月5日 #

摘要: 第1章 SparkStreaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark 阅读全文
posted @ 2021-07-05 13:15 LZ名約山炮 阅读(456) 评论(0) 推荐(0) 编辑

2021年6月30日 #

摘要: 第1章 需求概述 1.1 实时需求与离线需求的比较 离线需求(T+1):一般是根据前一日的数据生成报表等数据,虽然统计指标、报表繁多,但是对时效性不敏感。 实时需求(T+0):主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性 阅读全文
posted @ 2021-06-30 19:05 LZ名約山炮 阅读(227) 评论(0) 推荐(0) 编辑

2021年6月29日 #

摘要: 一、MyBatis 1. MyBatis简介 资料下载:https://pan.baidu.com/s/16P3uVfRuViM3hu514rO_6Q 提取码:5qi7 JDBC的弊端:SQL夹在Java代码块里,耦合度高导致硬编码内伤,维护不易。而实际开发需求中sql是有变化,频繁修改的情况多见。 阅读全文
posted @ 2021-06-29 23:53 LZ名約山炮 阅读(357) 评论(0) 推荐(0) 编辑

摘要: 第1章 Atlas入门 1.1 Atlas概述 Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能 1)表与表之间的血缘依赖 2)字段与字段之间的血缘依赖 1.2 Atlas架构 阅读全文
posted @ 2021-06-29 01:35 LZ名約山炮 阅读(270) 评论(0) 推荐(0) 编辑

2021年6月28日 #

摘要: 原因: 默认情况下 hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat(切片),此设置的功能是将输入目录的小文件进行切片合并,但是误将lzo.index文件也作为数据,故导致读数不准。 解决: 不使用Combin 阅读全文
posted @ 2021-06-28 18:36 LZ名約山炮 阅读(111) 评论(0) 推荐(0) 编辑

摘要: 第1章 Superset入门 1.1 Superset概述 Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。 1.2 Superset应用场景 由于Superset能够对接常用的大数 阅读全文
posted @ 2021-06-28 15:59 LZ名約山炮 阅读(181) 评论(0) 推荐(0) 编辑

摘要: 第10章 全流程调度 10.1 Azkaban部署 详情请看博客:https://www.cnblogs.com/LzMingYueShanPao/p/14911782.html 10.2 创建MySQL数据库和表 1)创建 gmall_report 数据库(也可以使用SQL语句创建) #使用Sql 阅读全文
posted @ 2021-06-28 02:16 LZ名約山炮 阅读(219) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 16 下一页