02 2017 档案

图文并茂 —— 基于Oozie调度Sqoop

摘要：利用大数据来做BI分析的时候，必不可少需要设置一些调度任务。本篇就讲述一下如何利用hue来编辑shell操作，这里面的很多操作在其他的调度操作里面也是可以借鉴的。如果是linux里面可以直接执行的脚本，那么可以直接在hue里面使用，比如：如果有参数，可以点击添加如果你使用了${value} 阅读全文

posted @ 2017-02-28 22:33 xingoo 阅读(2954) 评论(0) 推荐(0) 编辑

[看图说话] 基于Spark UI性能优化与调试——初级篇

摘要：Spark有几种部署的模式，单机版、集群版等等，平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便，只能通过Log的形式进行数据分析，利用spark ui做性能调整和优化。那么本篇就介绍下如何利用Ui做性能分析，因为本人的经验也阅读全文

posted @ 2017-02-26 17:52 xingoo 阅读(18341) 评论(8) 推荐(4) 编辑

Idea过期继续激活~

摘要：http://jetbrains.tech 阅读全文

posted @ 2017-02-26 13:36 xingoo 阅读(2213) 评论(0) 推荐(0) 编辑

Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）

摘要：在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种： UDF(User Defined Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User Defined Aggregation Funcation），用户自定义聚合函数，类似在g 阅读全文

posted @ 2017-02-23 23:49 xingoo 阅读(12255) 评论(1) 推荐(2) 编辑

Spark源码分析之Spark-submit和Spark-class

摘要：有了前面spark shell的经验，看这两个脚本就容易多啦。前面总结的Spark shell的分析可以参考： "Spark源码分析之Spark Shell（上）" "Spark源码分析之Spark Shell（下）" Spark submit if [ z "${SPARK_HOME}" ]; t 阅读全文

posted @ 2017-02-21 21:35 xingoo 阅读(5175) 评论(0) 推荐(1) 编辑

Spark源码分析之Spark Shell（下）

摘要：继上次的Spark shell脚本源码分析，还剩下后面半段。由于上次涉及了不少shell的基本内容，因此就把trap和stty放在这篇来讲述。上篇回顾： "Spark源码分析之Spark Shell（上）" 总结一下，上面的代码大体上做了三件事： 1 捕获终端信号，执行退出方法，恢复一些操作 2 阅读全文

posted @ 2017-02-19 11:20 xingoo 阅读(2358) 评论(0) 推荐(1) 编辑

Spark源码分析之Spark Shell（上）

摘要：终于开始看Spark源码了，先从最常用的spark shell脚本开始吧。不要觉得一个启动脚本有什么东东，其实里面还是有很多知识点的。另外，从启动脚本入手，是寻找代码入口最简单的方法，很多开源框架，其实都可以通过这种方式来寻找源码入口。先来介绍一下Spark shell是什么？ Spark she 阅读全文

posted @ 2017-02-18 10:37 xingoo 阅读(5026) 评论(0) 推荐(1) 编辑

《推荐系统实践》—— 读后总结

摘要：在刚刚毕业的时候，当时的领导就问了一个问题——个性化推荐与精准营销的区别，当时朦朦胧胧回答不出。现在想想，他们可以说是角度不同。精准营销可以理解为帮助物品寻找用户，而个性化推荐则是帮助用户寻找物品。什么是推荐系统？那么什么是推荐系统呢？简单的来说，就是帮助用户和物品联系起来，让信息展现在对他感谢阅读全文

posted @ 2017-02-03 11:18 xingoo 阅读(9887) 评论(0) 推荐(3) 编辑

公告

扫码关注公众号，不定期分享大数据和机器学习工作经验与学习心得

昵称： xingoo
园龄： 12年5个月
粉丝： 3983
关注： 79

+加关注

2025年3月

日

一

二

三

四

五

六

xingoo

02 2017 档案

公告

最新随笔

积分与排名

随笔分类 (900)

随笔档案 (1028)

常用工具

官方文档

好友链接