2018 年 1月 30 日随笔档案 - 四叶草Grass

2018年1月30日

摘要：本文转载自：http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队) Spark性能优化指南——基础篇李雪蕤 ·2016-04-29 14:00 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spar 阅读全文

posted @ 2018-01-30 17:44 四叶草Grass 阅读(143) 评论(0) 推荐(0) 编辑

[看图说话] 基于Spark UI性能优化与调试——初级篇

摘要：转载自：https://www.cnblogs.com/xing901022/p/6445254.html Spark有几种部署的模式，单机版、集群版等等，平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便，只能通过Log的形式进阅读全文

posted @ 2018-01-30 17:28 四叶草Grass 阅读(190) 评论(0) 推荐(0) 编辑

spark-submit工具参数说明

摘要：转载自：https://my.oschina.net/u/140462/blog/519409 执行时需要传入的参数说明 Usage: spark-submit [options] <app jar | python file> [app options] 参数名称含义 --master MAST 阅读全文

posted @ 2018-01-30 17:24 四叶草Grass 阅读(206) 评论(0) 推荐(0) 编辑

spark submit参数调优

摘要：在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源阅读全文

posted @ 2018-01-30 17:19 四叶草Grass 阅读(530) 评论(0) 推荐(0) 编辑

Spark性能调优之合理设置并行度

摘要：转载自：https://www.cnblogs.com/haozhengfei/p/e19171de913caf91228d9b432d0eeefb.html Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spar 阅读全文

posted @ 2018-01-30 17:05 四叶草Grass 阅读(364) 评论(0) 推荐(0) 编辑

Spark程序运行常见错误解决方法以及优化

摘要：转载自：http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多，网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢，可以去看该节点的性能监控来分析原因。以前遇到过同事在spark的一台阅读全文

posted @ 2018-01-30 17:02 四叶草Grass 阅读(5047) 评论(0) 推荐(0) 编辑

Spark配置参数调优

摘要： CPU各核负载量很不均匀，内存也没有用满，系统的资源没有得到充分利用，该如何利用？ (1)Spark的RDD的partition个数创建task的个数是对应的; (2)Partition的个数在hadoop的RDD中由block的个数决定的。内存：系统总内存数 = work内存大小 * work数阅读全文

posted @ 2018-01-30 16:49 四叶草Grass 阅读(1242) 评论(0) 推荐(0) 编辑

spark分区数,task数目,core数,worker节点个数,excutor数量梳理

摘要：转载自：https://www.cnblogs.com/hadoop-dev/p/6669232.html spark分区数,task数目,core数,worker节点个数,excutor数量梳理作者：王燚光链接：https://www.zhihu.com/question/33270495/a 阅读全文

posted @ 2018-01-30 14:10 四叶草Grass 阅读(274) 评论(0) 推荐(0) 编辑

Spark Streaming 'numRecords must not be negative'问题解决

摘要：转载自：http://blog.csdn.net/xueba207/article/details/51135423 问题描述笔者使用spark streaming读取Kakfa中的数据，做进一步处理，用到了KafkaUtil的createDirectStream()方法；该方法不会自动保存top 阅读全文

posted @ 2018-01-30 11:33 四叶草Grass 阅读(1121) 评论(0) 推荐(0) 编辑

MySQL数据实时增量同步到Kafka - Flume

摘要：转载自：https://www.cnblogs.com/yucy/p/7845105.html MySQL数据实时增量同步到Kafka - Flume 写在前面的话需求，将MySQL里的数据实时增量同步到Kafka。接到活儿的时候，第一个想法就是通过读取MySQL的binlog日志，将数据写到Ka 阅读全文

posted @ 2018-01-30 10:30 四叶草Grass 阅读(1686) 评论(0) 推荐(0) 编辑

公告