2023 年 5月随笔档案 - _泡泡

Doris(六) -- 查询语法和内置函数

摘要：# 查询语法和内置函数 ## 查询语法整体结构 ```sql SELECT [ALL | DISTINCT | DISTINCTROW ] -- 对查询字段的结果是否需要去重，还是全部保留等参数 select_expr [, select_expr ...] -- select的查询字段 [FROM 阅读全文

posted @ 2023-05-31 23:03 _泡泡阅读(2028) 评论(0) 推荐(0) 编辑

Doris(五) -- 数据的导入导出

摘要：# 数据导入 ## 使用 Insert 方式同步数据用户可以通过 MySQL 协议，使用 INSERT 语句进行数据导入 INSERT 语句的使用方式和 MySQL 等数据库中 INSERT 语句的使用方式类似。 INSERT 语句支持以下两种语法： ```SQL INSERT INTO tabl 阅读全文

posted @ 2023-05-30 20:02 _泡泡阅读(4615) 评论(0) 推荐(1) 编辑

Doris(四) -- Rollup和物化视图

摘要：# Rollup ROLLUP 在多维分析中是“上卷”的意思，即将数据按某种指定的粒度进行进一步聚合。通过建表语句创建出来的表称为 Base 表（Base Table,基表）在 Base 表之上，我们可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的，并且在阅读全文

posted @ 2023-05-29 19:46 _泡泡阅读(1828) 评论(0) 推荐(0) 编辑

Doris(三) -- 索引

摘要：# 索引索引用于帮助快速过滤或查找数据。目前 Doris 主要支持两类索引： • 内建的智能索引：包括前缀索引和 ZoneMap 索引。 • 用户创建的二级索引：包括 Bloom Filter 索引和 Bitmap倒排索引。其中 ZoneMap 索引是在列存格式上，对每一列自动维护的索引信息阅读全文

posted @ 2023-05-28 19:30 _泡泡阅读(879) 评论(0) 推荐(1) 编辑

Doris(二) -- 基本概念和数据表模型

摘要：# 字段类型 | 数据类型 | 字节 | 范围 | | | | | |TINYINT|1 字节|-2^7 + 1 ~ 2^7 - 1| |SMALLINT|2 字节|-2^15 + 1 ~ 2^15 - 1| |INT|4 字节|-2^31 + 1 ~ 2^31 - 1| |BIGINT|8 字节| 阅读全文

posted @ 2023-05-27 17:54 _泡泡阅读(1208) 评论(0) 推荐(0) 编辑

Doris(一) -- 简介和安装

摘要：## Doris 简介 ### Doris 概述 Apache Doris 由百度大数据部研发 (之前叫百度 Palo，2018 年贡献到 Apache 社区后，更名为 Doris), 在百度内部，有超过 200 个产品线在使用，部署机器超过 1000 台，单一业务最大可达到上百 TB。 Apach 阅读全文

posted @ 2023-05-26 21:16 _泡泡阅读(1182) 评论(0) 推荐(0) 编辑

hive(七) -- 拉链表、数据存储及优化配置

摘要：## 拉链表 ### 数据同步问题 Hive在实际工作中主要用于构建离线数据仓库，定期的从各种数据源中同步采集数据到Hive中，经过分层转换提供数据应用。比如每天需要从MySQL中同步最新的订单信息、用户信息、店铺信息等到数据仓库中，进行订单分析、用户分析。 ![image](https://img 阅读全文

posted @ 2023-05-25 19:31 _泡泡阅读(328) 评论(0) 推荐(0) 编辑

hive(六) -- 函数

摘要：## 函数 Hive的函数分为两大类∶内置函数(Built-in Functions )、用户定义函数UDF (User-Defined Functions ) . 内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等; 用户定义函数根据输入输出的行数可分为3类:UDF、阅读全文

posted @ 2023-05-24 19:25 _泡泡阅读(136) 评论(0) 推荐(0) 编辑

hive查询练习

摘要：## 练习1 ```SQl 2022-08-07 1,liuyan 2,tangyan 3,jinlian 4,dalang 5,ximenqing 2022-08-08 1,liuyan 2,tangyan 4,dalang 6,wusong -- 创建分区表记录每天用户登陆信息 create t 阅读全文

posted @ 2023-05-23 20:26 _泡泡阅读(23) 评论(0) 推荐(0) 编辑

hive(五) -- HQL查询语法

摘要：## HQL查询 ### 查询语法 ```SQL [WITH CommonTableExpression (,CommonTableExpression)*] SELECT [ALL | DISTINCT]select_expr, select_expr,... FROM table_referen 阅读全文

posted @ 2023-05-22 20:33 _泡泡阅读(206) 评论(0) 推荐(0) 编辑

hive(四) -- 内(外)部表、分区和分桶表

摘要：## 内部表和外部表默认情况下创建的表就是内部表，Hive拥有该表的结构和文件。换句话说，Hive完全管理表（元数据和数据）的生命周期，类似于RDBMS中的表。当你删除内部表时，它会删除数据以及表的元数据。可以使用DESCRIBE FORMATTED tablename,来获取表的元数据描述信息，阅读全文

posted @ 2023-05-21 18:48 _泡泡阅读(141) 评论(0) 推荐(0) 编辑

hive(三) -- 基础语法及导入导出

摘要：## HQL基础语法 Hive中的语句叫做HQL语句,是一种类似SQL的语句,基本上和SQL相同但是某些地方也是有很大的区别. ### 数据库操作 **创建数据库** - 1.创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 ```sql create d 阅读全文

posted @ 2023-05-20 16:24 _泡泡阅读(204) 评论(0) 推荐(0) 编辑

hive(二) -- hive部署

摘要：## 启动元数据服务 ```bash # 前台启动 hive --service metastore # 元数据服务会一直在前台运行,需要克隆一个session进行其他操作或者使用ctrl+z将它挂起到后台 # 后台启动 hive --service metastore & # 在后台启动若退出阅读全文

posted @ 2023-05-18 19:30 _泡泡阅读(90) 评论(0) 推荐(0) 编辑

hive(一) -- 简介和安装

摘要：## 数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW。是一个用于存储,分析,报告的数据系统.数据仓库的目的是构建**面向分析**的集成化数据环境,分析结果为企业提供决策支持. ## 数据库和数据仓库区别数据库和数据仓库的区别实际就是OLTP和OLAP的区别 OLTP系统的阅读全文

posted @ 2023-05-17 18:44 _泡泡阅读(62) 评论(0) 推荐(0) 编辑

Git版本控制

摘要：版本控制版本控制（Revision control）是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史，方便查看更改历史记录，备份以便恢复以前的版本的软件工程技术。 1)实现跨区域多人协同开发 2)追踪和记载一个或者多个文件的历史记录 3)组织和保护你的源代码和文档 4)统计工作量阅读全文

posted @ 2023-05-16 21:19 _泡泡阅读(34) 评论(0) 推荐(0) 编辑

hadoop -- Yarn资源管理

摘要：Yarn YARN被设计用以解决以往架构的需求和缺陷的资源管理和调度软件。 Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管阅读全文

posted @ 2023-05-15 18:55 _泡泡阅读(103) 评论(0) 推荐(0) 编辑

MapReduce分布式计算(四)

摘要：文件关联需求 order.txt order011 u001 order012 u001 order033 u005 order034 u002 order055 u003 order066 u004 order077 u010 user.txt u001,hangge,18,male,angel 阅读全文

posted @ 2023-05-14 19:15 _泡泡阅读(16) 评论(0) 推荐(0) 编辑

MapReduce分布式计算(三)

摘要：JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. JSON和Java对象的转换 movie.txt {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"movie":" 阅读全文

posted @ 2023-05-13 18:21 _泡泡阅读(17) 评论(0) 推荐(0) 编辑

MapReduce分布式计算(二)

摘要：练习同一时间不同地区的温度求每天的最高温度 2022-04-03,21.2 2022-04-03,18.5 2022-04-03,24.3 2022-04-03,16.5 2022-04-03,10.0 2022-04-04,28.3 2022-04-04,18.7 2022-04-04,30. 阅读全文

posted @ 2023-05-12 18:40 _泡泡阅读(19) 评论(0) 推荐(0) 编辑

MapReduce分布式计算(一)

摘要：MapReduce是Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种。 **练习：**计算a.txt文件中每个单词出现的次数 hello world hello hadoop hello 51doit 阅读全文

posted @ 2023-05-11 20:51 _泡泡阅读(58) 评论(0) 推荐(0) 编辑

hadoop基础(二)

摘要：JAVA客户端环境搭建创建Maven项目,添加Hadoop依赖. <dependencies>  <dependency> <groupId>mysql</ 阅读全文

posted @ 2023-05-10 17:10 _泡泡阅读(35) 评论(0) 推荐(0) 编辑

hadoop基础(一)

摘要：大数据的5v特征一、Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。二、Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类阅读全文

posted @ 2023-05-09 19:59 _泡泡阅读(66) 评论(0) 推荐(0) 编辑

shell编程

摘要：1.shell简介 Shell就是一种命令解析器，解析用户的命令调用系统内核执行相关的命令:比如我们写一个mkdir >经过shell解析成Linux能看懂的2进制-->linux执行.一个系统可以存在多个shell，可以通过cat /etc/shells命令查看系统中安装的shell，不同的she 阅读全文

posted @ 2023-05-08 13:59 _泡泡阅读(39) 评论(0) 推荐(0) 编辑

linux -- 基础(三)

摘要：集群搭建快照复制当前的机器的环境 ,当出现问题的时候 ,将机器恢复到当前快照的状态克隆关闭要被克隆的虚拟机进行完整克隆修改克隆虚拟机的ip及主机名修改linux的IP地址 vi /etc/sysconfig/network-scripts/ifcfg-ens33 192.168.22. 阅读全文

posted @ 2023-05-06 18:19 _泡泡阅读(15) 评论(0) 推荐(0) 编辑

linux -- 基础(二)

摘要：1 网络命令 1.1 查看本机的ip地址 ip addr -- 查看本机的IP地址 inet 192.168.133.33/ 1.2 服务 systemctl start|stop|restart|status 服务名 systemctl status network -- 查看网络服务状态 sys 阅读全文

posted @ 2023-05-05 20:01 _泡泡阅读(38) 评论(0) 推荐(0) 编辑

Linux -- 基础(一)

摘要：Linux目录结构 /:Linux中没有盘符,根目录为"/" **/bin:**存放系统命令的目录，所有用户都可以执行. **/sbin:**保存和系统环境设置相关的命令，只有超级用户可以使用这些命令，有些命令可以允许普通用户查看。 **/home:**用户缺省宿主目录添加新用户 home会有对应阅读全文

posted @ 2023-05-04 20:41 _泡泡阅读(91) 评论(0) 推荐(0) 编辑

mysql -- 事件

摘要：MySQL的EVENTS是用来处理计划任务的。MySQL使用称为事件调度线程的特殊线程来执行所有预定事件。默认情况下，事件调度线程是未启用（版本低于8.0.3）的状态，如要启用它，可以执行以下命令： > SET GLOBAL event_scheduler = ON ; > show variab 阅读全文

posted @ 2023-05-03 18:52 _泡泡阅读(82) 评论(0) 推荐(0) 编辑

mysql -- 保存查询结果和加载数据

摘要：可以使用select into outfile语句将输出保存到文件中。可以指定列和行分割符,然后可以将数据导入其他数据平台。保存查询结果可以将输出目标另存为文件或表。 1.另存为文件要将输出结果保存到文件中，需要拥有file权限。 FILE是一个全局特权，这意味着你不能将其限制为针对特定阅读全文

posted @ 2023-05-02 18:28 _泡泡阅读(246) 评论(0) 推荐(0) 编辑

mysql -- 存储过程

摘要：存储过程如果需要在MySQL中执行一系列语句，可以将所有语句封装在单个程序中，并在需要的时候调用这个程序，而不是每次发送所有SQL语句。存储过程处理的是一组SQL语句，且没有返回值。除了SQL语句，还可以使用变量来存储结果并在存储过程中执行程序化的内容。例如可以使用if,case语句、逻辑操作阅读全文

posted @ 2023-05-01 19:08 _泡泡阅读(44) 评论(0) 推荐(0) 编辑

05 2023 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论