摘要:
本文转载自:http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队) Spark性能优化指南——基础篇 李雪蕤 ·2016-04-29 14:00 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spar 阅读全文
摘要:
转载自:https://www.cnblogs.com/xing901022/p/6445254.html Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进 阅读全文
摘要:
转载自:https://my.oschina.net/u/140462/blog/519409 执行时需要传入的参数说明 Usage: spark-submit [options] <app jar | python file> [app options] 参数名称 含义 --master MAST 阅读全文
摘要:
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源 阅读全文
摘要:
转载自:https://www.cnblogs.com/haozhengfei/p/e19171de913caf91228d9b432d0eeefb.html Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spar 阅读全文
摘要:
转载自:http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多,网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢,可以去看该节点的性能监控来分析原因。以前遇到过同事在spark的一台 阅读全文
摘要:
CPU各核负载量很不均匀,内存也没有用满,系统的资源没有得到充分利用,该如何利用? (1)Spark的RDD的partition个数创建task的个数是对应的; (2)Partition的个数在hadoop的RDD中由block的个数决定的。 内存:系统总内存数 = work内存大小 * work数 阅读全文
摘要:
转载自:https://www.cnblogs.com/hadoop-dev/p/6669232.html spark分区数,task数目,core数,worker节点个数,excutor数量梳理 作者:王燚光 链接:https://www.zhihu.com/question/33270495/a 阅读全文
摘要:
转载自:http://blog.csdn.net/xueba207/article/details/51135423 问题描述 笔者使用spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStream()方法;该方法不会自动保存top 阅读全文
摘要:
转载自:https://www.cnblogs.com/yucy/p/7845105.html MySQL数据实时增量同步到Kafka - Flume 写在前面的话 需求,将MySQL里的数据实时增量同步到Kafka。接到活儿的时候,第一个想法就是通过读取MySQL的binlog日志,将数据写到Ka 阅读全文