随笔分类 -  bdv014-PB离线数仓

上一页 1 2 3 4

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|会员活跃度分析|json数据处理&使用UDF处理json串|
摘要:一、使用UDF处理 ### 自定义UDF处理json串中的数组。自定义UDF函数: ~~~ 输入:json串、数组的key ~~~ 输出:字符串数组 二、创建一个maven项目 ### 创建一个maven项目:cn.yanqi.dw ### 添加pom.xml依赖 <dependency> <gro 阅读全文

posted @ 2022-04-10 14:30 yanqi_vip 阅读(30) 评论(0) 推荐(0) 编辑

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|会员活跃度分析|json数据处理&使用内建函数处理|
摘要:一、json数据处理 ### json数据处理 ~~~ 数据文件中每行必须是一个完整的 json 串,一个 json串 不能跨越多行。 ~~~ # Hive 处理json数据总体来说有三个办法: ~~~ 使用内建的函数get_json_object、json_tuple ~~~ 使用自定义的UDF 阅读全文

posted @ 2022-04-10 14:29 yanqi_vip 阅读(26) 评论(0) 推荐(0) 编辑

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|会员活跃度分析|数据处理&ODS建表&加载数据|
摘要:一、ODS建表和数据加载 ### ODS建表和数据加载 ~~~ ODS层的数据与源数据的格式基本相同。 二、创建ODS层表: ### 创建ODS层表 [root@hadoop02 ~]# hive ~~~ # 建表语句 use ODS; drop table if exists ods.ods_st 阅读全文

posted @ 2022-04-10 14:28 yanqi_vip 阅读(35) 评论(0) 推荐(0) 编辑

|NO.Z.00016|——————————|BigDataEnd|——————————————————————————————————————
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:26 yanqi_vip 阅读(6) 评论(0) 推荐(0) 编辑

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|会员活跃度分析|自定义拦截器实现&测试|
摘要:一、采集启动日志和事件日志 ### 采集启动日志和事件日志 ~~~ 本系统中要采集两种日志:启动日志、事件日志,不同的日志放置在不同的目录下。 ~~~ 要想一次拿到全部日志需要监控多个目录。 ### 总体思路 ~~~ taildir监控多个目录 ~~~ 修改自定义拦截器,不同来源的数据加上不同标志 阅读全文

posted @ 2022-04-10 14:21 yanqi_vip 阅读(42) 评论(0) 推荐(0) 编辑

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|会员活跃度分析|启动自定义拦截器采集日志|
摘要:一、采集启动日志(使用自定义拦截器) ### 定义配置文件 [root@hadoop02 ~]# vim /data/yanqidw/conf/flume-log2hdfs2.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 # taildir 阅读全文

posted @ 2022-04-10 14:18 yanqi_vip 阅读(19) 评论(0) 推荐(0) 编辑

|NO.Z.00013|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|会员活跃度分析|自定义拦截器实现&测试|
摘要:一、自定义拦截器 ### 自定义拦截器 ~~~ 前面 Flume Agent 的配置使用了本地时间,可能导致数据存放的路径不正确。 ~~~ 要解决以上问题需要使用自定义拦截器。 ~~~ agent用于测试自定义拦截器。netcat source =>logger sink ### 创建自定义拦截器F 阅读全文

posted @ 2022-04-10 14:17 yanqi_vip 阅读(33) 评论(0) 推荐(0) 编辑

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|会员活跃度分析|agent配置&Flume配置|
摘要:一、Agent的配置 ### 配置Flume.agent配置 [root@hadoop02 ~]# vim /data/yanqidw/conf/flume-log2hdfs1.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 # taildir 阅读全文

posted @ 2022-04-10 14:16 yanqi_vip 阅读(17) 评论(0) 推荐(0) 编辑

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|会员活跃度分析|taildir/source|
摘要:一、日志数据采集 ### 原始日志数据(一条启动日志) 2020-07-3014: 18: 47.339[ main ]INFOcom.yanqi.ecommerce.AppStart-{ "app_active": { "name": "app_active", "json": { "entry" 阅读全文

posted @ 2022-04-10 14:15 yanqi_vip 阅读(26) 评论(0) 推荐(0) 编辑

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|会员活跃度分析|hdfs sink|
摘要:一、日志采集配置:hdfs sink配置 ### 日志采集配置:hdfs sink配置 a1.sinks.k1.type = hdfs a1.sinks.k1.hdfs.path = /user/data/logs/start/%Y-%m-%d/ a1.sinks.k1.hdfs.filePrefi 阅读全文

posted @ 2022-04-10 14:15 yanqi_vip 阅读(19) 评论(0) 推荐(0) 编辑

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|会员活跃度分析|需求说明|日志数据采集|
摘要:一、电商分析之--会员活跃度 ### 需求分析 ~~~ 会员数据是后期营销的很重要的数据。网店会专门针对会员进行一系列营销活动。 ~~~ 电商会员一般门槛较低,注册网站即可加入。 ~~~ 有些电商平台的高级会员具有时效性,需要购买VIP会员卡或一年内消费额达到多少才能成为高级会员。 ~~~ # 计算 阅读全文

posted @ 2022-04-10 14:14 yanqi_vip 阅读(38) 评论(0) 推荐(0) 编辑

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&PB级数仓.V07|——|PB数仓.v07|数仓设计|技术|逻辑|开发|数仓命名规范|
摘要:一、总体架构设计:技术方案选型 ### 技术方案选型 ~~~ 框架选型 ~~~ 软件选型 ~~~ 服务器选型 ~~~ 集群规模的估算 ### 框架选型 ~~~ Apache / 第三方发行版(CDH / HDP / Fusion Insight) ~~~ # Apache社区版本优点: ~~~ 完全 阅读全文

posted @ 2022-04-10 14:13 yanqi_vip 阅读(60) 评论(0) 推荐(0) 编辑

|NO.Z.00008|——————————|BigDataEnd|——————————————————————————————————————
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:13 yanqi_vip 阅读(12) 评论(0) 推荐(0) 编辑

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&PB级数仓.V05|——|PB数仓.v05|数仓模型|元数据|
摘要:一、数据仓库模型 ### 事实表与维度表 ~~~ 在数据仓库中,保存度量值的详细值或事实的表称为事实表。 ~~~ 事实数据表通常包含大量的行。 ~~~ 事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总, ~~~ 以提供有关单位作为历史的数据。事实表的粒度决定了数据仓库中数据的详细 阅读全文

posted @ 2022-04-10 14:12 yanqi_vip 阅读(25) 评论(0) 推荐(0) 编辑

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|——|PB数仓.v06|数仓设计|需求分析|数仓埋点|数据指标体系|
摘要:一、电商离线数仓设计 ### 需求分析 ~~~ 近年来,中国的电子商务快速发展,交易额连创新高, ~~~ 电子商务在各领域的应用不断拓展和深化、 ~~~ 相关服务业蓬勃发展、支撑体系不断健全完善、创新的动力和能力 不断增强。 ~~~ 电子商务正在与实体经济深度融合,进入规模性发展阶段,对经济社会生活 阅读全文

posted @ 2022-04-10 14:12 yanqi_vip 阅读(44) 评论(0) 推荐(0) 编辑

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|——|PB数仓.v04|数仓理论|数仓分层|
摘要:一、数据仓库分层 ### 数据仓库分层 ~~~ 数据仓库更多代表的是一种对数据的管理和使用的方式, ~~~ 它是一整套包括了数据建模、ETL(数据抽取、转换、加载)、 ~~~ 作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。 ~~~ 业务不同,分层的技术处理手段也不同 阅读全文

posted @ 2022-04-10 14:10 yanqi_vip 阅读(26) 评论(0) 推荐(0) 编辑

|NO.Z.00002|——————————|BigDataEnd|——|Hadoop&PB级数仓.V02|——|PB数仓.v02|数仓概念|数据集市|
摘要:一、数据仓库 ### [数仓理论] ~~~ [数据仓库:数仓概念] ~~~ [数据仓库:数仓特征] ~~~ [数据仓库与数据库的区别] ~~~ [数据仓库:数据集市] ### 什么是数据仓库 ~~~ 1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(InformationWareho 阅读全文

posted @ 2022-04-10 14:09 yanqi_vip 阅读(19) 评论(0) 推荐(0) 编辑

|NO.Z.00003|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|——|PB数仓.v03|数仓理论|建模方法|
摘要:一、数据仓库建模方法 ### 数据仓库建模方法 ~~~ # 数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。 ~~~ # 有了适合业务和基础数据存储环境的模型,能获得以下好处: ~~~ 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的I/O吞吐 ~~~ 成 阅读全文

posted @ 2022-04-10 14:09 yanqi_vip 阅读(7) 评论(0) 推荐(0) 编辑

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&PB级数仓.V01|——|PB数仓.v01|数据仓库|项目背景|
摘要:一、项目背景 ### 项目背景 ~~~ 人类正从IT时代走向DT(Data Technology)时代。 ~~~ 在DT时代,人们比以往任何时候更能收集到更丰富的数据。 ~~~ IDC 的报告显示:预计到2020年,全球数据总量将超过40ZB(相当于40 万亿GB), ~~~ 这一数据量是2011年 阅读全文

posted @ 2022-04-10 14:08 yanqi_vip 阅读(17) 评论(0) 推荐(0) 编辑

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————
摘要:NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-10 14:07 yanqi_vip 阅读(2) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示