spark使用总结

以下纯属个人意见

spark作为一种实时或历史数据计算方案，有如下几个特点：

当然也有缺点：

写spark job的原则：

spark终究是一个map-reduce的过程，核心就是多次，多种方法来构造key-value。所以要灵活掌握各种map方法，拼接复杂key
尽量用dataframe和sql，因为绝大多数data analysis的数据源都是结构化的，能够做df。用sql的好处是学习成本低，通俗易懂，而且可以少写复杂代码
rdd要尽量小，问题分解得越细rdd就越小。比如计算直播用户的首帧时间（就是用户从点击视频到看到第一个画面的时间），可以按维度：事件->live session id->用户id->unique id来filter（uniqeid是一种多个事件共享的id，比如一次点击触发多个埋点，它们是一次用户行为里的），这样就按视频、用户、单次观看（因为可以反复进出）得到一个最小化rdd，这里面若干个事件即可进行计算
建议用scala来写，因为spark本来就是用scala写的。用python写需要一些特殊的模块，本地不好开发和调试。如果有java基础，scala学习曲线也比较平滑

posted @ 2017-10-09 14:30 Els0n 阅读(196) 评论(0) 编辑收藏举报

刷新页面返回顶部

Els0n