02 2017 档案

摘要:利用大数据来做BI分析的时候,必不可少需要设置一些调度任务。 本篇就讲述一下如何利用hue来编辑shell操作,这里面的很多操作在其他的调度操作里面也是可以借鉴的。 如果是linux里面可以直接执行的脚本,那么可以直接在hue里面使用,比如: 如果有参数,可以点击 添加 如果你使用了${value} 阅读全文
posted @ 2017-02-28 22:33 xingoo 阅读(2954) 评论(0) 推荐(0) 编辑
摘要:Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能调整和优化。 那么本篇就介绍下如何利用Ui做性能分析,因为本人的经验也 阅读全文
posted @ 2017-02-26 17:52 xingoo 阅读(18341) 评论(8) 推荐(4) 编辑
摘要:http://jetbrains.tech 阅读全文
posted @ 2017-02-26 13:36 xingoo 阅读(2213) 评论(0) 推荐(0) 编辑
摘要:在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User Defined Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User Defined Aggregation Funcation),用户自定义聚合函数,类似在g 阅读全文
posted @ 2017-02-23 23:49 xingoo 阅读(12255) 评论(1) 推荐(2) 编辑
摘要:有了前面spark shell的经验,看这两个脚本就容易多啦。前面总结的Spark shell的分析可以参考: "Spark源码分析之Spark Shell(上)" "Spark源码分析之Spark Shell(下)" Spark submit if [ z "${SPARK_HOME}" ]; t 阅读全文
posted @ 2017-02-21 21:35 xingoo 阅读(5175) 评论(0) 推荐(1) 编辑
摘要:继上次的Spark shell脚本源码分析,还剩下后面半段。由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述。 上篇回顾: "Spark源码分析之Spark Shell(上)" 总结一下,上面的代码大体上做了三件事: 1 捕获终端信号,执行退出方法,恢复一些操作 2 阅读全文
posted @ 2017-02-19 11:20 xingoo 阅读(2358) 评论(0) 推荐(1) 编辑
摘要:终于开始看Spark源码了,先从最常用的spark shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。 先来介绍一下Spark shell是什么? Spark she 阅读全文
posted @ 2017-02-18 10:37 xingoo 阅读(5026) 评论(0) 推荐(1) 编辑
摘要:在刚刚毕业的时候,当时的领导就问了一个问题——个性化推荐与精准营销的区别,当时朦朦胧胧回答不出。现在想想,他们可以说是角度不同。精准营销可以理解为帮助物品寻找用户,而个性化推荐则是帮助用户寻找物品。 什么是推荐系统? 那么什么是推荐系统呢?简单的来说,就是帮助用户和物品联系起来,让信息展现在对他感谢 阅读全文
posted @ 2017-02-03 11:18 xingoo 阅读(9887) 评论(0) 推荐(3) 编辑

点击右上角即可分享
微信分享提示