2017 年 10月 6 日随笔档案 - satyrs

dependency & DF & DataSet & patitioner

摘要： dependecy narrow :onetoone prune range wide :shuffle 查看依赖： .dependecies .toDebugString DF catalyst:(sql's query optimizer) reordering operations reduc 阅读全文

posted @ 2017-10-06 22:42 satyrs 阅读(635) 评论(0) 推荐(0) 编辑

Reservoir Sampling

摘要：若S为1-10 ， k=3，则R初始为1,2,3 i=4时，1-4随机选取 4则1/4，1-3则3/4. 3, 将4赋值给R[j]->1,2,4 2->1,4,3 1->4,2,3 4->1,2,3 在1-4中随机取3个数即以上四种情况，并且保证了每种情况概率为1/4. 以上为举例，数学证明同理。阅读全文

posted @ 2017-10-06 02:48 satyrs 阅读(84) 评论(0) 推荐(0) 编辑

history server conf

摘要： spark.history.updateInterval 默认值：10 以秒为单位，更新日志相关信息的时间间隔 spark.history.retainedApplications 默认值：50 在内存中保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，当再次访问已阅读全文

posted @ 2017-10-06 02:24 satyrs 阅读(113) 评论(0) 推荐(0) 编辑

optimization & error -02

摘要： shuffle磁盘IO时间长设置spark.local.dir为多个磁盘，并设置磁盘的IO速度快的磁盘，通过增加IO来优化shuffle性能 map|reduce数量大，造成shuffle小文件数目多 spark.shuffle.consolidateFiles为true，来合并shuffle中间阅读全文

posted @ 2017-10-06 02:19 satyrs 阅读(111) 评论(0) 推荐(0) 编辑

coalesce

摘要： repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T] 同：RDD的分区进行重新划分异：repatition是coalesce一种情况，即分区增加，shuffle默阅读全文

posted @ 2017-10-06 01:55 satyrs 阅读(606) 评论(0) 推荐(0) 编辑

optimization & error -01

摘要：调优都是在场景限制之下。大部分选择并非一定。做测试来寻找瓶颈。（shuffle操作数量、RDD持久化操作数量以及gc）开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。（涉及代码质量（api及数据结构），参数，数据质量，考虑内存与网络而选择的模式（广播、序列化），官网建议） RDD（阅读全文

posted @ 2017-10-06 01:43 satyrs 阅读(166) 评论(0) 推荐(0) 编辑

satyrs