Fork me on GitHub
摘要: 1、数仓分层 分层 提高复用性、 减少重复开发 数据集市与数据仓库的区别 数据集市:狭义ADS层; 广义上指DWD DWS ADS 从hadoop同步到RDS的数据 数仓命名规范 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命 阅读全文
posted @ 2019-03-24 23:39 kris12 阅读(5614) 评论(1) 推荐(5) 编辑
摘要: 1. ElasticSearch概述 Elasticsearch是一个高度可伸缩的 基于Apache Lucene(TM)的 开源全文搜索引擎。Elasticsearch让你可以快速、实时地存储、搜索和分析大量数据,它通常作为互联网应用的内部搜 索引擎,为需要复杂搜索功能的应用提供支持。 Elast 阅读全文
posted @ 2019-03-24 10:14 kris12 阅读(849) 评论(4) 推荐(0) 编辑
摘要: 数仓分层搭建导入数据 1.ODS层 ① 用户行为数据日志表 创建输入支持lzo压缩、输出是text,支持Json解析解析的分区表 hive (gmall)> drop table if exists ods_log; CREATE EXTERNAL TABLE ods_log (`line` str 阅读全文
posted @ 2019-03-24 10:14 kris12 阅读(51802) 评论(8) 推荐(8) 编辑
levels of contents