萌哥-爱学习 - 博客园

[置顶] 开窗函数+group by案例

摘要： CREATE TABLE city_data ( city STRING, random_field STRING ); INSERT INTO city_data (city, random_field) VALUES ('New York', 'example1'), ('Los Angeles 阅读全文

posted @ 2024-12-29 20:07 萌哥-爱学习阅读(152) 评论(0) 推荐(0)

[置顶] 活跃用户(七天内进行了第二次购买的用户) 30天内日活用户（count(distinct user_id)）where卡三十天区间

posted @ 2024-12-29 20:06 萌哥-爱学习阅读(170) 评论(0) 推荐(0)

[置顶] 数仓分层

摘要：数据仓库和数据仓库分层1 数据仓库的概念数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本阅读全文

posted @ 2020-06-06 23:27 萌哥-爱学习阅读(13) 评论(0) 推荐(0)

[置顶] 目录大纲

摘要： word自动生成目录最新版 Hadoop集群搭建[逐步安装步骤] 安装hadoop 单机版本. CDH平台集群搭建[逐步安装步骤] Python文件读写基本操作 python操作excel clinical-逻辑核查数据的操作 redis设置密码 git使用编码CODING GIT 数据库事务的四阅读全文

posted @ 2019-05-26 21:42 萌哥-爱学习阅读(173) 评论(0) 推荐(0)

[置顶] 目录大纲

摘要：面试题求平衡点装饰器详解 redis配置 Nigix配置面试题-一个列表向右移动k位 HTTP请求行、请求头、请求体详解面试题-选择题Python 查询一段文字，找出最长的单词面试题-回文 Django _VIEW视图_源码分析 Django_Restframwork_APIVIEW视图阅读全文

posted @ 2019-04-19 09:59 萌哥-爱学习阅读(148) 评论(0) 推荐(0)

[置顶] 目录大纲

摘要：微服务设计指南敏捷开发-依赖详情敏捷项目-依赖项拖动change 敏捷开发-获得依赖项面板 git pull 谈谈唯一约束和唯一索引 Flask-上下文管理语音识别，文本转语音，语音转文本 __setattr__,__getattr__ Python的魔法方法 hashlib 和loggin模块 super函数的用法 Mysql-基础特殊属性 Django分页设置 rabbitMQ消... 阅读全文

posted @ 2019-01-20 23:15 萌哥-爱学习阅读(211) 评论(0) 推荐(0)

[置顶] 目录大纲

摘要： SqlAlchemy操作（三） Mysql-视图 map函数和reduce函数、filter函数的区别 Python中split()、os.path.split()函数用法 DateTimeField如何自动设置为当前时间并且能被修改 ——django日期时间字段的使用 SQLAlchemy 几种查阅读全文

posted @ 2018-12-20 19:27 萌哥-爱学习阅读(175) 评论(0) 推荐(0)

[置顶] 目录大纲

摘要： Django思维导图 session 和cookie HTTP服务介绍 Python对excel表格的操作手写堆栈和队列 Redis安装步骤 - linux系统下 Redis持久化策略（RDB &AOF） django static文件的引入方式 CentOS更改ssh端口 ORM查询迭代器生成阅读全文

posted @ 2018-11-15 21:59 萌哥-爱学习阅读(148) 评论(0) 推荐(0)

[置顶] 目录大纲

摘要： Django基础 POST与GET请求的区别 CRM 安装 rabbitmq ，通过生成器获取redis列表数据与 Celery 分布式异步队列统计一篇英文文章内每个单词出现频率，并返回出现频率最高的前10个单词及其出现次数 POST与GET请求的区别 Restframework 分页器 Pag 阅读全文

posted @ 2018-03-21 18:41 萌哥-爱学习阅读(388) 评论(0) 推荐(0)

2024年12月29日

where 和 on的区别

摘要： select a.id, a.salary ,b.id, b.salary from a left join b on a.id =b.id -- and b.salary != 200 ; -- 16swhere b.salary != 200 ; 主表中的条件要放到 where 条件中, 附表中阅读全文

posted @ 2024-12-29 19:59 萌哥-爱学习阅读(26) 评论(0) 推荐(0)

2024年12月20日

不良类下迁金额 --贴现

摘要：待整理阅读全文

posted @ 2024-12-20 21:21 萌哥-爱学习阅读(14) 评论(0) 推荐(0)

2024年9月25日

start.bat

摘要： #start F:\day07\0.mp4start G:\MUSIC\7.mp4 阅读全文

posted @ 2024-09-25 21:01 萌哥-爱学习阅读(27) 评论(0) 推荐(0)

2024年9月19日

SQL题库链接

摘要： https://blog.csdn.net/godlovedaniel/article/details/116570983 具体应用： SQL进阶技巧：Hive如何巧解和差计算的递归问题？【应用案例2】-CSDN博客 SQL进阶技巧：Hive URL解析函数详解及实际应用-CSDN博客 SQL进阶技阅读全文

posted @ 2024-09-19 22:36 萌哥-爱学习阅读(44) 评论(0) 推荐(0)

2024年9月14日

LEETCODE 1709 两个日期的最大空档期

posted @ 2024-09-14 17:57 萌哥-爱学习阅读(49) 评论(0) 推荐(0)

2024年9月13日

大厂SQL专题详解：真实面试题（第20天）

摘要： https://blog.csdn.net/syhiiu/article/details/140061139 阅读全文

posted @ 2024-09-13 19:35 萌哥-爱学习阅读(44) 评论(0) 推荐(0)

连续三周活跃用户，七天内连续3天活跃用户

摘要：阅读全文

posted @ 2024-09-13 15:06 萌哥-爱学习阅读(13) 评论(0) 推荐(0)

distribute by和cluster by的区别？ order by和sort by的区别？

摘要： A 阅读全文

posted @ 2024-09-13 14:55 萌哥-爱学习阅读(35) 评论(0) 推荐(0)

LEFT JOIN 与 left semi join 的区别

摘要：好的,我再给你举一个使用 Hive SQL 的例子,比较 `LEFT JOIN` 和 `LEFT SEMI JOIN` 的区别,并加入测试数据。假设我们有两个表: 1. `customers` 表: - `customer_id`: 客户 ID - `customer_name`: 客户名称 - 阅读全文

posted @ 2024-09-13 10:55 萌哥-爱学习阅读(317) 评论(0) 推荐(0)

2024年9月12日

sql-优化数据倾斜

摘要： 10.4 数据倾斜 1.数据倾斜现象：绝大多数任务都很快完成，只有一个或者少数几个任务执行的很慢甚至最终执行失败。 2.数据过量现象：数据过量的表现为所有任务都执行的很慢，这个时候只有提高执行资源才可以优化HQL的执行效率。 3. 数据倾斜的原因：导致倾斜的原因在于按照key分组后，少量的任务阅读全文

posted @ 2024-09-12 14:04 萌哥-爱学习阅读(225) 评论(0) 推荐(0)

lateral view

摘要：在 Hive 中，使用 `LATERAL VIEW` 可以实现行转列的操作，通常与 `explode` 函数结合使用。下面是一个示例，展示如何通过 `LATERAL VIEW` 将行转为列。 ### 示例场景假设我们有一个名为 `movies` 的表，包含影视作品及其类型，类型是以逗号分隔的字符串阅读全文

posted @ 2024-09-12 13:46 萌哥-爱学习阅读(124) 评论(0) 推荐(0)

`FULL JOIN` 和 `UNION ALL`

摘要：在 SQL 中，`FULL JOIN` 和 `UNION ALL` 是两种不同的操作，它们的结果也有显著的区别。 ### FULL JOIN`FULL JOIN`（全外连接）会返回两张表中所有的记录。对于没有匹配的记录，结果中会用 `NULL` 填充缺失的部分。具体来说： - 如果表 A 和表 B 阅读全文

posted @ 2024-09-12 09:54 萌哥-爱学习阅读(1349) 评论(0) 推荐(0)

2024年9月11日

两个时间戳的时间差

摘要： --MYSQL SELECT TIMESTAMPDIFF(SECOND, datetime1, datetime2) AS seconds_difference FROM your_table; --MYSQL求两个时间的秒数 SELECT TIMESTAMPDIFF(MINUTE, start_t 阅读全文

posted @ 2024-09-11 14:49 萌哥-爱学习阅读(213) 评论(0) 推荐(0)

环比与同比

摘要： ### 环比（Month-on-Month, MoM）环比是指将某一时间段的数据与前一个相同时间段的数据进行比较，通常用于分析短期内的变化趋势。环比可以帮助我们了解数据在连续时间段内的增长或下降情况。 **示例：**如果2024年1月的销售额为100万元，2月的销售额为120万元，则2月的环比增长阅读全文

posted @ 2024-09-11 10:01 萌哥-爱学习阅读(351) 评论(0) 推荐(0)

leetcode 1809 没有广告的剧集

posted @ 2024-09-11 09:37 萌哥-爱学习阅读(28) 评论(0) 推荐(0)

2024年9月6日

多维分析函数： 1. GROUPING_SETS 用法 2. cube的用法 . 3 rollup

摘要：三者语法： 1. GROUP BY GROUPING SETS ( (product_name, region),（）） ; 2. GROUP BY year, region WITH CUBE; 3.GROUP BY ROLLUP(year, region, product); 1. GROUPI 阅读全文

posted @ 2024-09-06 09:28 萌哥-爱学习阅读(1692) 评论(0) 推荐(1)

2024年9月5日

chatgpt生成的所有分析函数，感觉很好.

该文被密码保护。阅读全文

posted @ 2024-09-05 21:57 萌哥-爱学习阅读(1) 评论(0) 推荐(0)

NULL 与0 之间的转换关系.

摘要： 1. null 转换成 0 1.1 通过 COALESCE 函数传入 n个表达式或者字段，遇到非null就返回。举例子： COALESCE ( A.TEMPLATE_ID , B.TEMPLATE_ID ) coalesce( 表达式,0) 遇到非null值即停止并返回该值 1.2 通过阅读全文

posted @ 2024-09-05 11:41 萌哥-爱学习阅读(131) 评论(0) 推荐(0)

2024年9月4日

NTILE 和 PERCENT_RANK() 的区别

摘要： NTILE 和 PERCENT_RANK 都是用于排名和分配的窗口函数，但它们的工作方式和结果有所不同。以下是它们的主要区别： 1. NTILE 功能： NTILE(n) 将数据分成 n 个桶或区间，按排序顺序将每个数据项分配到这些桶中。每个桶大约包含数据的 1/n。结果：结果是桶的编号，从阅读全文

posted @ 2024-09-04 16:56 萌哥-爱学习阅读(278) 评论(0) 推荐(0)

2024年8月30日

常用函数

摘要：一、常用日期函数 1. unix_timestamp:返回当前或指定时间的时间戳 select unix_timestamp(); select unix_timestamp("2020-10-28",'yyyy-MM-dd'); 2. from_unixtime：将时间戳转为日期格式 select 阅读全文

posted @ 2024-08-30 11:02 萌哥-爱学习阅读(35) 评论(0) 推荐(0)

2024年8月29日

开窗函数汇总

摘要： Function(arg1) over(partition by arg order by arg <windows_expression>) 1. 窗口函数 over() 后面的为窗口函数 ,sum这种为分析函数. over() : 指定分析函数工作的数据窗口大小，窗口会随着行进行变化. win 阅读全文

posted @ 2024-08-29 21:18 萌哥-爱学习阅读(144) 评论(0) 推荐(0)

2024年8月26日

指标概况 --活跃率--留存率

摘要： https://blog.csdn.net/xiao4816/article/details/140244631?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522A5285920-BB13-4457-8E69-98798293C098% 阅读全文

posted @ 2024-08-26 17:48 萌哥-爱学习阅读(46) 评论(0) 推荐(0)

2024年8月22日

时间格式汇总

摘要： 1. 两个日期相减 date_diff datediff('2019-07-27',activity_date) between 0 and 29 2. 日期与数字相减或者相加 1. mysql 如下语法 where activity_date between date_add("2019-07-2 阅读全文

posted @ 2024-08-22 20:25 萌哥-爱学习阅读(56) 评论(0) 推荐(0)

1479 leetcode，将值转换成列的问题

摘要：最终结果 # Write your MySQL query statement below select distinct b.item_category as Category, ifnull(sum(case when dayofweek(a.order_date) = 2 then a.qua 阅读全文

posted @ 2024-08-22 10:04 萌哥-爱学习阅读(30) 评论(0) 推荐(0)

2024年8月21日

leetcode 2292 连续两年订购商品超过多少次的问题.

摘要：方法1 ： SELECT distinct o.product_id FROM ( SELECT product_id, year(purchase_date) year, dense_rank() over(partition by product_id order by year(purchas 阅读全文

posted @ 2024-08-21 22:11 萌哥-爱学习阅读(55) 评论(0) 推荐(0)

2024年8月20日

leetcode 1082典型题，开窗函数

摘要：示例零： SELECT seller_id , RANK() OVER( ORDER BY SUM(price) DESC) AS r ,SUM(price) FROM Sales 结果：返回一条数据，没有partition 关键字，等于是全表做order by ，基于全表做sum 排序阅读全文

posted @ 2024-08-20 12:20 萌哥-爱学习阅读(49) 评论(0) 推荐(0)

2024年8月18日

开窗函数的另外一种方式

摘要： https://leetcode.cn/problems/game-play-analysis-iii/solutions/286941/chao-xiang-xi-tu-jie-zi-lian-jie-by-piajun 如下第一种最简单的开窗 select player_id , event_ 阅读全文

posted @ 2024-08-18 15:27 萌哥-爱学习阅读(27) 评论(0) 推荐(0)

2024年8月14日

week日期的函数

摘要：如下是 hive的函数 select dayofweek ('2022-02-27') ; --dayofweek展示的是周几共计 7个值， 6代表周五 =1 select weekofyear('2022-12-22') ;--51 如下为mysql 的语句：SELECT WEEK(purc 阅读全文

posted @ 2024-08-14 17:29 萌哥-爱学习阅读(37) 评论(0) 推荐(0)

Avg平均值和占比

摘要： SELECT ROUND( AVG(order_date = customer_pref_delivery_date) * 100, 2 ) AS immediate_percentage FROM Delivery ;等价于 SELECT ROUND( AVG(CASE WHEN order_da 阅读全文

posted @ 2024-08-14 10:49 萌哥-爱学习阅读(103) 评论(0) 推荐(0)

2024年8月12日

银行五级分类

摘要：正常贷款：借款人能够履行合同，一直能正常还本付息，不存在任何影响贷款本息及时全额偿还的消极因素。关注贷款：尽管借款人有能力偿还贷款本息，但存在一些可能对偿还产生不利影响的因素。次级贷款：借款人的还款能力出现明显问题，完全依靠其正常营业收入无法足额偿还贷款本息。可疑贷款：借款人无法足额偿还贷款本阅读全文

posted @ 2024-08-12 20:37 萌哥-爱学习阅读(66) 评论(0) 推荐(0)

2024年8月9日

leetcode考试题

posted @ 2024-08-09 11:58 萌哥-爱学习阅读(38) 评论(0) 推荐(0)

2024年8月6日

explode split lateral view

摘要：在 Apache Hive 中，split 函数用于将字符串按照指定的分隔符拆分成数组。这在处理字符串数据时非常有用，特别是当需要对包含多个元素的字段进行拆分和分析时。案例1. select split('a,b,c,d',',') ; / ["a","b","c","d"]explode 函数是阅读全文

posted @ 2024-08-06 21:07 萌哥-爱学习阅读(139) 评论(0) 推荐(0)

2024年8月4日

Hive SQL必刷练习题：同时在线人数问题（*****）

摘要： https://blog.csdn.net/Mikkkee/article/details/136776193 --Drop DROP TABLE IF EXISTS test_live_events; --DDL CREATE TABLE IF NOT EXISTS test_live_event 阅读全文

posted @ 2024-08-04 18:51 萌哥-爱学习阅读(186) 评论(0) 推荐(0)

2024年7月9日

SPARK算子

摘要： 1. SPARK架构我们往往采用Spark On Yarn模式, 那么无需spark开启 master和slaver进程分别由yarn的 Rourcemanager和Nodemanager担当.Driver 角色运行在yarn容器中或者客户端.资源管理由resourceManger承担. 任务计阅读全文

posted @ 2024-07-09 13:49 萌哥-爱学习阅读(44) 评论(0) 推荐(0)

2024年7月7日

主键分类

摘要：主键可以分为业务主键和代理主键.业务主键(身份证号码)代理主键surrogate (无实际意义自动编号) 阅读全文

posted @ 2024-07-07 17:49 萌哥-爱学习阅读(43) 评论(0) 推荐(0)

2024年7月1日

DATABRICKS仓湖一体

摘要：它的统一分析平台旨在在孤立的数据存储系统之间建立数字管道，并帮助工程师和数据科学家更好地沟通。 https://blog.csdn.net/ZGL_cyy/article/details/130332720 阅读全文

posted @ 2024-07-01 22:55 萌哥-爱学习阅读(15) 评论(0) 推荐(0)

2024年6月26日

维度建模通俗易懂讲数据仓库之【缓慢变化维】

摘要： s 阅读全文

posted @ 2024-06-26 21:51 萌哥-爱学习阅读(18) 评论(0) 推荐(0)

2024年3月11日

linux 通过python 命令定时删除文件，不通过crontab

摘要： import os import time log_dir = "/var/log/" def delete_expired_logs(): current_time = time.localtime() print(current_time.tm_hour) if current_time.tm_ 阅读全文

posted @ 2024-03-11 13:52 萌哥-爱学习阅读(63) 评论(0) 推荐(0)

萌哥

爱学习

公告