关于大数据平台上任务管理的思考
1.改善软件开发团队的效率的个人经验2.C++程序员的成长路径3.Java程序员的成长路径4.我的大数据之路 - 转岗半年的记录5.我的大数据之路 - 生产变更方案的注意事项6.我的大数据之路 - 基于HANA构建实时方案的历程7.我的大数据之路 - 维表变了怎么办8.IPTV SQM的项目总结9.2016年全年回顾10.2015年全年回顾
11.关于大数据平台上任务管理的思考
12.听其言,观其行13.2019年全年回顾14.重案组第一季的观后感15.重案组第一季第一集的观后感16.重案组第一季第二集的观后感17.天空之眼的观后感18.2023年全年回顾19.2020年全年回顾20.2021年全年回顾21.2022年全年回顾22.2018年全年回顾23.为什么选择入行分布式存储24.承接新业务时的常见困难和对策本文于2019年7月16日完成,发布在个人博客网站上。
考虑个人博客因某种原因无法修复,于是在博客园安家,之前发布的文章逐步搬迁过来。
作业,比如提交一个hive脚本到计算平台上运行,这个脚本宏观上称为一个作业。
任务,比如mapper,reducer等。
资源,比如CPU时间,内存,硬盘IO,网络IO,墙钟等。
期望计算平台提供的信息,比如:
- 当前有哪些作业在运行。
- 作业占用的资源。
- 作业总共使用了哪些运算节点。
- 指定的作业使用了哪些节点,分别占用了多少资源。
- 每个节点上分配了哪些任务,分别占用了多少资源。
- 每个作业有多少stage,分别有多少任务,各占用多少资源。
- 各分类的排名。
- 各个mapper,reducer读入的数据量,输出的数据量。
- 数据表的访问频率,访问数据量。
- SQL的执行计划。
监控和通知,比如:
- 针对上述信息,例行发送指标值。
- 针对上述信息,定义阈值,当超出阈值,发送给指定的群组。
- 针对上述信息,提供趋势图,供指定人查看。
- 运行时占用资源多的作业,执行计划,输入数据量,输出数据量等。
日常工作中需要回答的问题:
- 计算平台的资源使用情况,有什么变化,变化趋势怎么样。
- 计算平台的资源使用情况是否合理。
- 计算平台是否需要扩容。
- 任务的数量,近期是否有什么变化。
- 任务处理的数据量,输出的数据量,是否有什么变化,变化的特点是什么,是否合乎业务特点。
- 任务占用的资源,是否有什么变化,变化的特点是什么。
- 任务运行时,stage,mapper,reducer的数量,使用的资源等,是否有什么变化,变化的特点是什么。
- 对于给定的某个作业,占用的资源是否充足或者过多。
- 对于给定的某个作业,对应的代码,是否需要优化,优化空间有多大。
分配资源的原则,充分利用资源,比如:
- 重点业务,优先保障。
- 非重点业务,合理安排调度启动时间,控制等待时间和墙钟时间。
- 监测资源瓶颈,避免争用。
- 制定扩容计划,及时实施。
有了上述数据,就有了调整资源的依据,减少无效的沟通,提高生活质量。
本文来自博客园,作者:jackieathome,转载请注明原文链接:https://www.cnblogs.com/jackieathome/p/17949675
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)