2021 年 8月 21 日随笔档案 - 小阿政

2021年8月21日

摘要：（1）spark中的数据倾斜的现象？1、数据倾斜的现象多数task执行速度较快，少数task执行时间非常长，或者等待很长时间后提示你内存不够，执行失败（2）数据倾斜的原因？数据问题：1、key本身分布不均衡（包括大量的key为空）2、key的设置不合理spark使用问题：shuffle时的并行度不够阅读全文

posted @ 2021-08-21 13:49 小阿政阅读(325) 评论(0) 推荐(0) 编辑

数仓面试题2

摘要：数仓与关系型数据库的区别？1、数据库有相对复杂的表格结构，存储结构相对紧致而数据仓库则是相对简单的表格结构，存储结构相对松散2、数据库在读和写两方面都有优化，数据仓库一般只是读优化3、数据库单次操作作用于少量数据，数据仓库单次操作作用与大量的数据4、数据库支持单条数据的修改，数据仓库不支持5.数据库阅读全文

posted @ 2021-08-21 13:48 小阿政阅读(193) 评论(0) 推荐(0) 编辑

spark持久化共享变量

摘要： 1、collect的功能是什么，其底层是怎么实现的？driver通过collect把集群中各个节点的数据收集过来汇总成总结果，collect返回结果是array类型的，collect把各个节点的数据抓过来，抓过来的数据是array类型，collect对array抓过来的结果进行合并，合并后array 阅读全文

posted @ 2021-08-21 13:48 小阿政阅读(74) 评论(0) 推荐(0) 编辑

数据仓库面试题

摘要：离线数仓面试题？1、ODS：存放原始数据，直接加载原始日志，数据，数据保持原貌不做处理。2、DWS：结构和粒度与原始表保持一致，对ODS层数据进行清洗（去除空值，脏数据）3、DWS:以DWD层为基础，进行轻度汇总。4、ADS:为各种统计报表提供数据。为什么要对数仓进行分层？1、把简单问题复杂化将一个阅读全文

posted @ 2021-08-21 13:47 小阿政阅读(1280) 评论(0) 推荐(0) 编辑

topn

摘要： mysql 中求top n TopN:前几条数据 1.TopN age最大的前三个 select * from students order by age desc limit 0,3; 2.分组Top1 按sex分组后,求分组中年龄最大的一个 1.select * from students wh 阅读全文

posted @ 2021-08-21 13:41 小阿政阅读(370) 评论(0) 推荐(0) 编辑

项目流程及阿里云工具

摘要：数据仓库定义：为企业所有的决策制定过程，提供所有系统数据支持的战略集合来源：日志采集系统业务系统数据库爬虫系统等数据仓库是做什么的：清洗，转义，分类，重组，合并，拆分，统计等数据仓库输出到哪：报表系统，用户画像，机器学习，推荐系统，风控系统项目需求分析：1、采集埋点日志数据以文件存储2、采集业务数阅读全文

posted @ 2021-08-21 13:38 小阿政阅读(111) 评论(0) 推荐(0) 编辑

小阿政

公告