09 2022 档案

摘要:DolphinScheduler:国产调度平台 airflow: 调度平台 阅读全文
posted @ 2022-09-29 14:40 半个程序猿Cohen_Lee 阅读(19) 评论(0) 推荐(0) 编辑
摘要:高可用(HA):直白来说就是系统不会因为某台机器,或某个实例挂了,就不能提供服务了。高可用需要做到分布式、负载均衡、自动侦查、自动切换、自动恢复等。 高吞吐: 单位时间内,能传输的数据量,对应指标就是TPS 阅读全文
posted @ 2022-09-26 17:39 半个程序猿Cohen_Lee 阅读(20) 评论(0) 推荐(0) 编辑
摘要:1)数据倾斜根本原因:由于数据分布不均匀,导致map端读取的数据分布不均匀(数据长尾分布),从而使得map处理的数据量差异过大。 (2)解决思路:Hive是分阶段执行的,map处理数据量的差异取决于上一个stage的reduce输出,所以解决的根本方法就是如何将数据均匀的分布到各个reduce中 ( 阅读全文
posted @ 2022-09-19 22:34 半个程序猿Cohen_Lee 阅读(1228) 评论(0) 推荐(0) 编辑
摘要:Hive Sql 大全 本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句): 对数据库的操作:包含创建、修改数据库 对数据表的操作:分为内部表及外部表,分区表和分桶表 二、DQL语句(数据查询语句): 单表查询、关联查询 hive 阅读全文
posted @ 2022-09-09 09:41 半个程序猿Cohen_Lee 阅读(377) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示