一年都在冬眠

2024年10月14日

摘要：安装Hive 把apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面 [user@hadoop102 software]$ tar -zxvf /op 阅读全文

posted @ 2024-10-14 16:09 一年都在冬眠阅读(47) 评论(0) 推荐(0)

2024年10月12日

ETL过程及常用工具

摘要： ETL概念将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程 ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础数据抽取全阅读全文

posted @ 2024-10-12 10:17 一年都在冬眠阅读(183) 评论(0) 推荐(0)

2024年10月11日

拉链表

摘要：概念定义针对数据仓库设计中表存储数据的方式而定义的，设计表的时候添加start_date和end_date两个字段，数据更新时，通过修改end_date来设置数据的有效时间所谓拉链，就是记录历史，记录一个事物从开始一直到当前状态的所有变化的信息可以使用这张表拿到最新的当天的最新数据以及之前的阅读全文

posted @ 2024-10-11 16:56 一年都在冬眠阅读(234) 评论(0) 推荐(0)

数仓开发理论（二）数仓构建分层概念

摘要：数仓建模的好处好的数据仓库能够支持复杂数据分析和决策，能够提供高性能查询，能够做到数据的通用集成和保持数据的一致性，可以说得上是面向业务分析的数据库数仓功能本质就是通过建模来达成对复杂业务的抽象，清晰准确完整的刻画业务场景，以便用户通过业务视角便捷的获取所需数据，完成对业务活动的度量案例一零阅读全文

posted @ 2024-10-11 12:34 一年都在冬眠阅读(183) 评论(0) 推荐(0)

数仓开发理论（一）概念总览

摘要：数据仓库概念可以把数据仓库认为是一个国道汇总到高速的一个高速中转站，负责收集这些不同地方来源的数据，统一归纳整理好再放到高速上去用，达到高效数据中转的效果数据仓库的目的就是为了统筹集中所有可以使用的数据，构建面向分析的集成数据环境，通过最终数据分析结果为企业提供决策导向支持对于整个数据仓库而言阅读全文

posted @ 2024-10-11 10:06 一年都在冬眠阅读(168) 评论(0) 推荐(0)

2024年10月10日

Hive（七）分区表和分桶表

摘要：分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件 Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多分区表基本操作引入分区表 dep 阅读全文

posted @ 2024-10-10 10:33 一年都在冬眠阅读(210) 评论(0) 推荐(0)

2024年10月9日

Hive（六）JSON函数

摘要：概念什么是JSON JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成 JSON是存储和交换文本信息的语法，类似XML JSON比XML更小、更快，更易解析 JSON语法数据在名称/值对中数据由,分开使用斜杠阅读全文

posted @ 2024-10-09 16:42 一年都在冬眠阅读(243) 评论(0) 推荐(0)

Hive（五）常用函数

摘要： Hive常用函数字符串函数返回值函数描述 string concat(string/binary A, string/binary B…) 对二进制字节码或字符串按次序进行拼接 int instr(string str, string substr) 查找字符串str中子字符串substr出阅读全文

posted @ 2024-10-09 15:36 一年都在冬眠阅读(99) 评论(0) 推荐(0)

Impala函数语法

摘要： Impala常用函数语法 Impala是基于Hadoop的一种高性能分布式SQL查询引擎，它支持使用SQL语言对大规模数据进行分析和查询数学函数函数说明举例 ABS(x) 绝对值函数，返回一个数的绝对值 SELECT ABS(-10) AS result; CEIL(x) 向上取整函数，返回阅读全文

posted @ 2024-10-09 10:21 一年都在冬眠阅读(360) 评论(0) 推荐(0)

2024年10月8日

StarRocks模型表（二）

摘要：聚合表建表时可以定义聚合键并且为value列指定聚合函数，当多条数据具有相同的聚合键时，value列会进行聚合适用场景适用于分析统计和汇总数据，例如：通过分析网站或APP的访问流量，统计用户的访问总时长、访问总次数广告厂商为广告主提供的广告点击总量、展示总量、消费统计等通过分析电商的全年阅读全文

posted @ 2024-10-08 17:11 一年都在冬眠阅读(186) 评论(0) 推荐(0)

shihongpin

公告