2022 年 3月 17 日随笔档案 - 赤兔胭脂小吕布

2022年3月17日

摘要： spark 数据倾斜优化数据倾斜产生的原因 1、数据分布不均，有的key很多，有的key很少 2、有shuffle的过程这两个原因也是解决数据倾斜的两个入手的方面数据倾斜七种解决方案其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理数据 2、阅读全文

posted @ 2022-03-17 22:54 赤兔胭脂小吕布阅读(127) 评论(0) 推荐(0) 编辑

spark 参数调优

摘要：参数调优 num-executors 一般为Task数的1/3或1/2左右，这个参数是必须要设置的参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数阅读全文

posted @ 2022-03-17 21:35 赤兔胭脂小吕布阅读(98) 评论(0) 推荐(0) 编辑

精准搜索需求、通过IDEA将数据格式化

摘要：精准搜索需求数据： {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","itemId":" 阅读全文

posted @ 2022-03-17 19:00 赤兔胭脂小吕布阅读(85) 评论(0) 推荐(0) 编辑

赤兔胭脂小吕布

天行健，君子以自强不息！

公告