随笔分类 -  sql/hivesql

摘要:1)数据倾斜根本原因:由于数据分布不均匀,导致map端读取的数据分布不均匀(数据长尾分布),从而使得map处理的数据量差异过大。 (2)解决思路:Hive是分阶段执行的,map处理数据量的差异取决于上一个stage的reduce输出,所以解决的根本方法就是如何将数据均匀的分布到各个reduce中 ( 阅读全文
posted @ 2022-09-19 22:34 半个程序猿Cohen_Lee 阅读(1228) 评论(0) 推荐(0) 编辑
摘要:Hive Sql 大全 本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句): 对数据库的操作:包含创建、修改数据库 对数据表的操作:分为内部表及外部表,分区表和分桶表 二、DQL语句(数据查询语句): 单表查询、关联查询 hive 阅读全文
posted @ 2022-09-09 09:41 半个程序猿Cohen_Lee 阅读(377) 评论(0) 推荐(0) 编辑
摘要:第一题 需求 我们有如下的用户访问数据 userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 U02 20 阅读全文
posted @ 2022-04-16 15:01 半个程序猿Cohen_Lee 阅读(201) 评论(0) 推荐(0) 编辑
摘要:--查找存储过程-内容 FROM sys.sql_modules AS m INNER JOIN sys.all_objects AS o ON m.object_id = o.object_id WHERE o.[type] = 'P' and definition like '%NK_WEB.% 阅读全文
posted @ 2022-02-24 13:06 半个程序猿Cohen_Lee 阅读(174) 评论(0) 推荐(0) 编辑
摘要:在SQLSERVER中如何检测一个字符串中是否包含另一个字符串 --当charindex返回值大于0时则包含 为0不包含 select CHARINDEX('456','123456') SQL语句使用CHARINDEX函数,来测试一个字符串中是否包含另一个字符串中的方法: 一、CHARINDEX函 阅读全文
posted @ 2022-02-16 14:41 半个程序猿Cohen_Lee 阅读(1630) 评论(0) 推荐(0) 编辑
摘要:变量类型: @@为全局变量,数据库提供的 @局部变量,用户自定义 QL中的 @、@@、#、## 、N 代表什么 @ 表示局部变量 @@ 表示全局变量 '#' 表示本地临时表的名称,以单个数字符号打头;它们仅对当前的用户连接是可见的 '##' 表示全局临时表 N 代表存入数据库时以 Unicode 格 阅读全文
posted @ 2022-02-15 14:06 半个程序猿Cohen_Lee 阅读(3338) 评论(0) 推荐(0) 编辑
摘要:好了我们言归正传,首先,对于MySQL层优化我一般遵从五个原则: 减少数据访问: 设置合理的字段类型,启用压缩,通过索引访问等减少磁盘IO 返回更少的数据: 只返回需要的字段和数据分页处理 减少磁盘io及网络io 减少交互次数: 批量DML操作,函数存储等减少数据连接次数 减少服务器CPU开销: 尽 阅读全文
posted @ 2022-01-27 16:13 半个程序猿Cohen_Lee 阅读(122) 评论(0) 推荐(0) 编辑
摘要:常见数据库知识总结 MYAQL: 事务:事务是并发控制的基本单元,事务是一个操作序列,要么都执行,要么都不执行,他是一个不可分割的工作单位,事务是维护数据库一致性的单位。 四个ACID基本性质: 1.原子性:要么都执行,要么都不执行。 2.一致性:合法的数据才可以被写入。 3.隔离性:允许多个用户并 阅读全文
posted @ 2022-01-26 22:33 半个程序猿Cohen_Lee 阅读(529) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/weixin_38750084/article/details/82779910 简介 本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。 概念 我们都知 阅读全文
posted @ 2021-10-14 15:29 半个程序猿Cohen_Lee 阅读(197) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/weixin_43332500/article/details/105033468 1、语法: sum(字段1 ) over (partition by 字段2 order by 字段3 rows between unbounded preceding a 阅读全文
posted @ 2021-10-14 14:44 半个程序猿Cohen_Lee 阅读(1194) 评论(0) 推荐(0) 编辑
摘要:窗口函数 row number + partition by 排序 数据排序后再取第一个值 select * from (select *, Row_Number() over (partition by uid order by created_at ) rank from ods_lps_kkb 阅读全文
posted @ 2021-04-28 15:54 半个程序猿Cohen_Lee 阅读(176) 评论(0) 推荐(0) 编辑
摘要:sql 截取字符串: 1、LOCATE(substr , str ):返回子串 substr 在字符串 str 中第一次出现的位置,如果字符substr在字符串str中不存在,则返回0; 2、POSITION(substr IN str ):返回子串 substr 在字符串 str 中第一次出现的位 阅读全文
posted @ 2021-04-12 15:40 半个程序猿Cohen_Lee 阅读(592) 评论(0) 推荐(0) 编辑
摘要:在sql查询时将日期转为时间戳 from_unixtime(unix_timestamp('20170608111213', 'yyyyMMddHHmmss'), 'yyyy-MM-dd HH:mm:ss') NOW():当前日期时间 SELECT UNIX_TIMESTAMP(NOW()); 将日 阅读全文
posted @ 2021-04-10 13:59 半个程序猿Cohen_Lee 阅读(1597) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示