2017年10月6日

dependency & DF & DataSet & patitioner

摘要: dependecy narrow :onetoone prune range wide :shuffle 查看依赖: .dependecies .toDebugString DF catalyst:(sql's query optimizer) reordering operations reduc 阅读全文

posted @ 2017-10-06 22:42 satyrs 阅读(635) 评论(0) 推荐(0) 编辑

Reservoir Sampling

摘要: 若S为1-10 , k=3,则R初始为1,2,3 i=4时,1-4随机选取 4则1/4,1-3则3/4. 3, 将4赋值给R[j]->1,2,4 2->1,4,3 1->4,2,3 4->1,2,3 在1-4中随机取3个数即以上四种情况,并且保证了每种情况概率为1/4. 以上为举例,数学证明同理。 阅读全文

posted @ 2017-10-06 02:48 satyrs 阅读(84) 评论(0) 推荐(0) 编辑

history server conf

摘要: spark.history.updateInterval 默认值:10 以秒为单位,更新日志相关信息的时间间隔 spark.history.retainedApplications 默认值:50 在内存中保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,当再次访问已 阅读全文

posted @ 2017-10-06 02:24 satyrs 阅读(113) 评论(0) 推荐(0) 编辑

optimization & error -02

摘要: shuffle磁盘IO时间长 设置spark.local.dir为多个磁盘,并设置磁盘的IO速度快的磁盘,通过增加IO来优化shuffle性能 map|reduce数量大,造成shuffle小文件数目多 spark.shuffle.consolidateFiles为true,来合并shuffle中间 阅读全文

posted @ 2017-10-06 02:19 satyrs 阅读(111) 评论(0) 推荐(0) 编辑

coalesce

摘要: repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 同:RDD的分区进行重新划分 异:repatition是coalesce一种情况,即分区增加,shuffle默 阅读全文

posted @ 2017-10-06 01:55 satyrs 阅读(606) 评论(0) 推荐(0) 编辑

optimization & error -01

摘要: 调优都是在场景限制之下。大部分选择并非一定。做测试来寻找瓶颈。(shuffle操作数量、RDD持久化操作数量以及gc) 开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。 (涉及代码质量(api及数据结构),参数,数据质量,考虑内存与网络而选择的模式(广播、序列化),官网建议) RDD( 阅读全文

posted @ 2017-10-06 01:43 satyrs 阅读(166) 评论(0) 推荐(0) 编辑

导航