摘要:新建AccessLogDriverCluster类 package com.it19gong.clickproject; import java.sql.PreparedStatement; import java.util.ArrayList; import java.util.List; imp
阅读全文
摘要:新建包 package com.it19gong.clickproject; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable;
阅读全文
摘要:RDD转换为DataFrame 为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。 这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以使用SQL进行查询。 Spark SQL支持两种方
阅读全文
摘要:Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。
阅读全文
摘要:新建一个类 运行代码 运行代码 运行代码 运行代码 运行代码
阅读全文
摘要:Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD; 而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。 例如,map就是一种transfo
阅读全文
摘要:打开eclipse创建maven项目 pom.xml文件 创建一个WordCountLocal.java文件 运行一下 集群执行wordcount程序 创建一个WordCountCluster.java文件 // 如果要在spark集群上运行,需要修改的,只有两个地方 // 第一,将SparkCon
阅读全文
摘要:安装scala 上传安装包 解压 配置scala相关的环境变量 验证scala安装是否成功 把scala分发给node2 node3 node4 分别给node2 node3 node4配置scala的环境变量,并使其生效 spark安装包下载地址:https://archive.apache.or
阅读全文
摘要:启动azkaban 在启动了server和excutor之后,在浏览器打开azkaban,会发现不能打开,日志报这个错误 其实这个问题不难解决,在打开的时候建议用谷歌浏览器:地址是 https://192.168.86.131:8443/(https://你的ip:8433) 注意了,之前一直不能打
阅读全文
摘要:数据展示 http://echarts.baidu.com/index.html 是一个图像展示 可以到官方实例中选择各种图 通过下载例子 新建echartdome.php 通过浏览器打开 但是我们必须通过phpstudy来运行,不能直接这样打开网页 先把echartdome.php改成index.
阅读全文
摘要:先通过可视化工具链接mysql,在链接的时候用sqoop 用户登录 在数据库userdb下新建表 保存,输入表名upflow 现在我们需要把hive里面的数据通过sqoop导入到mysql里面 可以看到mysql的数据
阅读全文
摘要:创建upflow表 将表access里面的内容导入到upflow表中
阅读全文
摘要:先启动hive 在mydb2这个数据库中创建表; 把清洗后的数据导入到刚刚创建的hive表中
阅读全文
摘要:在eclipse软件里创建一个maven项目 jdk要换成本地安装的1.8版本的 加载pom.xml文件 在加载依赖包的时候如果出现错误,在仓库里找不到1.8jdk.tools 在这个地方改成本地的jdk绝对路径,再重新加载一次maven的依赖包 我这里修改成 在项目下新建AccessLogPreP
阅读全文
摘要:先创建一个目录 在这个job目录下创建upload.sh文件 对upload.sh进行编辑 然后新建目录,并上传日志文件 给脚本赋予权限 在HDFS上新建目录 执行脚本 可以看到结果
阅读全文
摘要:首先创建一个command.job文件 然后打成zip压缩包 上传刚刚打包的zip包 上传完后可以执行他 可以定时执行 现在我们立马执行 现在我们要执行一个脚本 新建一个commad1.job文件 再编写一个hello,sh脚本 把两个文件都选上一起打包 上传刚刚打的zip包 执行 创建有依赖关系的
阅读全文
摘要:工作流调度器azkaban 2.1 概述 2.1.1为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划,需要一
阅读全文
摘要:表数据 在mysql中有一个库userdb中三个表:emp, emp_add和emp_contact 表emp id name deg salary dept 1201 gopal manager 50,000 TP 1202 manisha Proof reader 50,000 TP 1203
阅读全文
摘要:创建数据文件 把数据文件上传到集群 在HDFS上创建目录 把数据文件上传到HDFS上 登录Mysql 在mysql里创建一个表 现在需要从HDFS上把数据导入到mysql中对应的表 执行命令 查看Mysql表的数据
阅读全文
摘要:上传sqoop压缩包,并解压 给sqoop一个软链接 给sqoop配置环境变量 使环境变量生效 给文件重命名一下 打开sqoop-env.sh并编辑 在/opt/modules/sqoop/lib目录下加入mysql的jdbc驱动包 验证一下
阅读全文