2018年9月17日

一些hue的参考网址

摘要： CDH5.8 HUE的使用（那些年走过的坑） https://blog.csdn.net/gao123456789amy/article/details/79242713 HUE的时间问题等 http://www.cnblogs.com/hark0623/p/5039776.html 阅读全文

posted @ 2018-09-17 16:31 曦晴嗨皮阅读(182) 评论(0) 推荐(0) 编辑

CDH hue下定时执行hive脚步

摘要：今天在看oozie时发现能在hue中执行hive 脚本，主要是hue 和 oozie结合使用，下面介绍下怎么使用的，挺恶心的，哈哈（在这里就不哔哔了）提交oozie定时作业 1、进入hue界面，点击workflows工作流，编辑workflows 2、创建工作流本文以hive2作业sql任务为例阅读全文

posted @ 2018-09-17 16:13 曦晴嗨皮阅读(831) 评论(0) 推荐(1) 编辑

流式分析系统实现之二

摘要： Spark Streaming Mysql Window 继“流式分析系统实现之一”后采用Window函数对1分钟内的数据进行统计，虽然在一中也已说明但是并没有实践，所以在此篇文章中对Window进行介绍及操作同时把数据存储到Mysql数据库中，这样就可以查看每分钟的数据，以下代码只是模拟和展示，没阅读全文

posted @ 2018-09-17 15:53 曦晴嗨皮阅读(318) 评论(0) 推荐(0) 编辑

流式分析系统实现之一

摘要：一、实验介绍我们知道网站用户访问流量是不间断的，基于网站的访问日志，即 Web log 分析是典型的流式实时计算应用场景。比如百度统计，它可以做流量分析、来源分析、网站分析、转化分析。另外还有特定场景分析，比如安全分析，用来识别 CC 攻击、 SQL 注入分析、脱库等。这里我们简单实现一个类似于百阅读全文

posted @ 2018-09-17 15:49 曦晴嗨皮阅读(216) 评论(0) 推荐(0) 编辑

Spark升级--在CDH-5.15.1中添加spark2

摘要：一、环境准备 jdk-1.8+scala-2.11.X+python-2.7 二、创建目录 mkdir -p /opt/cloudera/csd 修改权限 chown cloudera-scm:cloudera-scm /opt/cloudera/csd 获取csd(放到/opt/cloudera/ 阅读全文

posted @ 2018-09-17 15:30 曦晴嗨皮阅读(618) 评论(0) 推荐(0) 编辑

Spark 基础之SQL 快速上手

摘要：知识点 SQL 基本概念 SQL Context 的生成和使用 1.6 版本新API：Datasets 常用 Spark SQL 数学和统计函数 SQL 语句 Spark DataFrame 文件保存实验步骤 Spark SQL 是Spark 中用于处理结构化数据的模块。它与基本的Spark RD 阅读全文

posted @ 2018-09-17 15:22 曦晴嗨皮阅读(917) 评论(0) 推荐(0) 编辑

CDH Spark-shell启动报错

摘要： Spark-shell启动报错具体报错如下：在CDH YARN 中修改以下两个配置： yarn.scheduler.maximum-allocation-mb 2048 yarn.nodemanager.resource.memory-mb 4096 然后重启集群参考资料https://blo 阅读全文

posted @ 2018-09-17 15:13 曦晴嗨皮阅读(211) 评论(0) 推荐(0) 编辑

Spark SQL例子

摘要：综合案例分析现有数据集 department.json与employee.json，以部门名称和员工性别为粒度，试计算每个部门分性别平均年龄与平均薪资。 department.json如下： {"id":1,"name":"Tech Department"} {"id":2,"name":"Fin 阅读全文

posted @ 2018-09-17 15:13 曦晴嗨皮阅读(246) 评论(0) 推荐(0) 编辑

导航

2018年9月17日