05 2023 档案
摘要:# 查询语法和内置函数 ## 查询语法整体结构 ```sql SELECT [ALL | DISTINCT | DISTINCTROW ] -- 对查询字段的结果是否需要去重,还是全部保留等参数 select_expr [, select_expr ...] -- select的查询字段 [FROM
阅读全文
摘要:# 数据导入 ## 使用 Insert 方式同步数据 用户可以通过 MySQL 协议,使用 INSERT 语句进行数据导入 INSERT 语句的使用方式和 MySQL 等数据库中 INSERT 语句的使用方式类似。 INSERT 语句支持以下两种语法: ```SQL INSERT INTO tabl
阅读全文
摘要:# Rollup ROLLUP 在多维分析中是“上卷”的意思,即将数据按某种指定的粒度进行进一步聚合。 通过建表语句创建出来的表称为 Base 表(Base Table,基表) 在 Base 表之上,我们可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的,并且在
阅读全文
摘要:# 索引 索引用于帮助快速过滤或查找数据。 目前 Doris 主要支持两类索引: • 内建的智能索引:包括前缀索引和 ZoneMap 索引。 • 用户创建的二级索引:包括 Bloom Filter 索引 和 Bitmap倒排索引。 其中 ZoneMap 索引是在列存格式上,对每一列自动维护的索引信息
阅读全文
摘要:# 字段类型 | 数据类型 | 字节 | 范围 | | | | | |TINYINT|1 字节|-2^7 + 1 ~ 2^7 - 1| |SMALLINT|2 字节|-2^15 + 1 ~ 2^15 - 1| |INT|4 字节|-2^31 + 1 ~ 2^31 - 1| |BIGINT|8 字节|
阅读全文
摘要:## Doris 简介 ### Doris 概述 Apache Doris 由百度大数据部研发 (之前叫百度 Palo,2018 年贡献到 Apache 社区后,更名为 Doris), 在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一业务最大可达到上百 TB。 Apach
阅读全文
摘要:## 拉链表 ### 数据同步问题 Hive在实际工作中主要用于构建离线数据仓库,定期的从各种数据源中同步采集数据到Hive中,经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中,进行订单分析、用户分析。 、用户定义函数UDF (User-Defined Functions ) . 内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等; 用户定义函数根据输入输出的行数可分为3类:UDF、
阅读全文
摘要:## 练习1 ```SQl 2022-08-07 1,liuyan 2,tangyan 3,jinlian 4,dalang 5,ximenqing 2022-08-08 1,liuyan 2,tangyan 4,dalang 6,wusong -- 创建分区表记录每天用户登陆信息 create t
阅读全文
摘要:## HQL查询 ### 查询语法 ```SQL [WITH CommonTableExpression (,CommonTableExpression)*] SELECT [ALL | DISTINCT]select_expr, select_expr,... FROM table_referen
阅读全文
摘要:## 内部表和外部表 默认情况下创建的表就是内部表,Hive拥有该表的结构和文件。换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。当你删除内部表时,它会删除数据以及表的元数据。可以使用DESCRIBE FORMATTED tablename,来获取表的元数据描述信息,
阅读全文
摘要:## HQL基础语法 Hive中的语句叫做HQL语句,是一种类似SQL的语句,基本上和SQL相同但是某些地方也是有很大的区别. ### 数据库操作 **创建数据库** - 1.创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 ```sql create d
阅读全文
摘要:## 启动元数据服务 ```bash # 前台启动 hive --service metastore # 元数据服务会一直在前台运行,需要克隆一个session进行其他操作 或者使用ctrl+z将它挂起到后台 # 后台启动 hive --service metastore & # 在后台启动 若退出
阅读全文
摘要:## 数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW。是一个用于存储,分析,报告的数据系统.数据仓库的目的是构建**面向分析**的集成化数据环境,分析结果为企业提供决策支持. ## 数据库和数据仓库区别 数据库和数据仓库的区别实际就是OLTP和OLAP的区别 OLTP系统的
阅读全文
摘要:版本控制 版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。 1)实现跨区域多人协同开发 2)追踪和记载一个或者多个文件的历史记录 3)组织和保护你的源代码和文档 4)统计工作量
阅读全文
摘要:Yarn YARN被设计用以解决以往架构的需求和缺陷的资源管理和调度软件。 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管
阅读全文
摘要:文件关联 需求 order.txt order011 u001 order012 u001 order033 u005 order034 u002 order055 u003 order066 u004 order077 u010 user.txt u001,hangge,18,male,angel
阅读全文
摘要:JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. JSON和Java对象的转换 movie.txt {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"movie":"
阅读全文
摘要:练习 同一时间不同地区的温度 求每天的最高温度 2022-04-03,21.2 2022-04-03,18.5 2022-04-03,24.3 2022-04-03,16.5 2022-04-03,10.0 2022-04-04,28.3 2022-04-04,18.7 2022-04-04,30.
阅读全文
摘要:MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。 **练习:**计算a.txt文件中每个单词出现的次数 hello world hello hadoop hello 51doit
阅读全文
摘要:JAVA客户端 环境搭建 创建Maven项目,添加Hadoop依赖. <dependencies> <!-- https://mvnrepository.com/artifact/mysql/mysql-connector-java --> <dependency> <groupId>mysql</
阅读全文
摘要:大数据的5v特征 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类
阅读全文
摘要:1.shell简介 Shell就是一种命令解析器,解析用户的命令调用系统内核执行相关的命令:比如我们写一个mkdir >经过shell解析成Linux能看懂的2进制-->linux执行.一个系统可以存在多个shell,可以通过cat /etc/shells命令查看系统中安装的shell,不同的she
阅读全文
摘要:集群搭建 快照 复制当前的机器的环境 ,当出现问题的时候 ,将机器恢复到当前快照的状态 克隆 关闭要被克隆的虚拟机 进行完整克隆 修改克隆虚拟机的ip及主机名 修改linux的IP地址 vi /etc/sysconfig/network-scripts/ifcfg-ens33 192.168.22.
阅读全文
摘要:1 网络命令 1.1 查看本机的ip地址 ip addr -- 查看本机的IP地址 inet 192.168.133.33/ 1.2 服务 systemctl start|stop|restart|status 服务名 systemctl status network -- 查看网络服务状态 sys
阅读全文
摘要:Linux目录结构 /:Linux中没有盘符,根目录为"/" **/bin:**存放系统命令的目录,所有用户都可以执行. **/sbin:**保存和系统环境设置相关的命令,只有超级用户可以使用这些命令,有些命令可以允许普通用户查看。 **/home:**用户缺省宿主目录 添加新用户 home会有对应
阅读全文
摘要:MySQL的EVENTS是用来处理计划任务的。MySQL使用称为事件调度线程的特殊线程来执行所有预定事件。默认情况下,事件调度线程是未启用(版本低于8.0.3)的状态, 如要启用它,可以执行以下命令: > SET GLOBAL event_scheduler = ON ; > show variab
阅读全文
摘要:可以使用select into outfile语句将输出保存到文件中。可以指定列和行分割符,然后可以将数据导入其他数据平台。 保存查询结果 可以将输出目标另存为文件或表。 1.另存为文件 要将输出结果保存到文件中,需要拥有file权限。 FILE是一个全局特权, 这意味着你不能将其限制为针对特定
阅读全文
摘要:存储过程 如果需要在MySQL中执行一系列语句,可以将所有语句封装在单个程序中,并在需要的时候调用这个程 序,而不是每次发送所有SQL语句。存储过程处理的是一组SQL语句,且没有返回值。 除了SQL语句,还可以使用变量来存储结果并在存储过程中执行程序化的内容。例如可以使用if,case语句、逻辑操作
阅读全文