1 2 Fork me on GitHub 6

12 2020 档案

摘要:大数据技术栈全貌 下面自底向上介绍各个层的主要项目。 1 采集层和传输层 Sqoop 在hadoop和关系型数据库之间转换数据。 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HD 阅读全文
posted @ 2020-12-30 12:18 peng_li 阅读(587) 评论(0) 推荐(1)
摘要:概述: vim是一种久远而强大的编辑器,分为三种模式:命令行模式、输入模式、底线命令行模式。 命令行模式: 在通过vim test.txt命令创建或打开(如果文件存在就直接打开,如果不存在则先创建再打开)一个txt文件时,就进入了命令行模式,该模式的特点是不可对文件进行编辑,此时敲击键盘则被vim识 阅读全文
posted @ 2020-12-28 16:59 peng_li 阅读(695) 评论(0) 推荐(0)
摘要:从低往高层: ODS>DWD,DWS>DM ODS:Operation Data Store 原始数据,业务库数据,日志数据,mongodb等数据源,api抓取,gio DWD(数据清洗/DWI) data warehouse detail 数据明细详情,去除空值,脏数据,超过极限范围的 明细解析 阅读全文
posted @ 2020-12-09 16:00 peng_li 阅读(818) 评论(0) 推荐(0)

1