随笔分类 -  数仓项目记录

离线数仓项目
摘要:产生场景1 hive中对表执行insert into数据,每次插入数据都会在表目录下形成一个小文件 解决方案: 使用insert overwrite table...(会重写数据,先进行删除后插入) 产生场景2 现象:Flume采集数据时在HDFS上产生大量小文件的问题 flume指定HDFS类型的 阅读全文
posted @ 2022-08-11 14:18 tootooquan 阅读(909) 评论(0) 推荐(0) 编辑
摘要:全流程调度器部署 1.不同层数据装载脚本之间存在依赖关系 2.业务数据每天都产生,因此脚本每天都要执行--定时问题 可以考虑使用ooize、Azkaban,Ooize是重量级的任务调度系统,配置更复杂,配合界面UI使用 说到定时——想到linux中的crontab命令 crontab命令详解 命令格 阅读全文
posted @ 2022-05-14 18:52 tootooquan 阅读(435) 评论(0) 推荐(0) 编辑
摘要:用户行为数据 主要包括页面数据、事件数据、曝光数据、启动数据和错误数据。 页面数据 页面数据主要记录一个页面的用户访问情况,包括访问时间、停留时间、页面路径等信息。 事件数据 事件数据主要记录应用内一个具体操作行为,包括操作类型、操作对象、操作对象描述等信息。 曝光数据 曝光数据主要记录页面所曝光的 阅读全文
posted @ 2022-05-02 12:15 tootooquan 阅读(348) 评论(0) 推荐(0) 编辑
摘要:数据如何产生? 使用脚本生成,模拟日志(并非真实的日志) 集群日志生成脚本 #!/bin/bash for i in hadoop102 hadoop103; do echo " i"sshi "cd /opt/module/applog/; java -jar gmall2020-moc 阅读全文
posted @ 2022-04-12 09:59 tootooquan 阅读(182) 评论(0) 推荐(0) 编辑
摘要:数据仓库概念 数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。 输入数据形式 数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。 业务数据(通过Sqoop框架) 各行业在处理事务过程中产生的数据。通常存储在My 阅读全文
posted @ 2022-04-11 19:37 tootooquan 阅读(71) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示