摘要: (1)spark中的数据倾斜的现象?1、数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不够,执行失败(2)数据倾斜的原因?数据问题:1、key本身分布不均衡(包括大量的key为空)2、key的设置不合理spark使用问题:shuffle时的并行度不够 阅读全文
posted @ 2021-08-21 13:49 小阿政 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 数仓与关系型数据库的区别?1、数据库有相对复杂的表格结构,存储结构相对紧致而数据仓库则是相对简单的表格结构,存储结构相对松散2、数据库在读和写两方面都有优化,数据仓库一般只是读优化3、数据库单次操作作用于少量数据,数据仓库单次操作作用与大量的数据4、数据库支持单条数据的修改,数据仓库不支持5.数据库 阅读全文
posted @ 2021-08-21 13:48 小阿政 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 1、collect的功能是什么,其底层是怎么实现的?driver通过collect把集群中各个节点的数据收集过来汇总成总结果,collect返回结果是array类型的,collect把各个节点的数据抓过来,抓过来的数据是array类型,collect对array抓过来的结果进行合并,合并后array 阅读全文
posted @ 2021-08-21 13:48 小阿政 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 离线数仓面试题?1、ODS:存放原始数据,直接加载原始日志,数据,数据保持原貌不做处理。2、DWS:结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值,脏数据)3、DWS:以DWD层为基础,进行轻度汇总。4、ADS:为各种统计报表提供数据。为什么要对数仓进行分层?1、把简单问题复杂化将一个 阅读全文
posted @ 2021-08-21 13:47 小阿政 阅读(1280) 评论(0) 推荐(0) 编辑
摘要: mysql 中求top n TopN:前几条数据 1.TopN age最大的前三个 select * from students order by age desc limit 0,3; 2.分组Top1 按sex分组后,求分组中年龄最大的一个 1.select * from students wh 阅读全文
posted @ 2021-08-21 13:41 小阿政 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 数据仓库定义:为企业所有的决策制定过程,提供所有系统数据支持的战略集合来源:日志采集系统业务系统数据库爬虫系统等数据仓库是做什么的:清洗,转义,分类,重组,合并,拆分,统计等数据仓库输出到哪:报表系统,用户画像,机器学习,推荐系统,风控系统项目需求分析:1、采集埋点日志数据 以文件存储2、采集业务数 阅读全文
posted @ 2021-08-21 13:38 小阿政 阅读(111) 评论(0) 推荐(0) 编辑