电视收视率项目 - 随笔分类 - 百里登峰

32.电视采集项目流程spark篇通过Azkaban调度spark

摘要：新建AccessLogDriverCluster类 package com.it19gong.clickproject; import java.sql.PreparedStatement; import java.util.ArrayList; import java.util.List; imp 阅读全文

posted @ 2020-02-04 16:40 百里登峰阅读(800) 评论(0) 推荐(0)

31.电视采集项目流程spark篇通过sparksql处理业务逻辑

摘要：新建包 package com.it19gong.clickproject; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; 阅读全文

posted @ 2020-02-03 17:00 百里登峰阅读(368) 评论(0) 推荐(0)

30.Spark SQL和DataFrame

摘要：RDD转换为DataFrame 为什么要将RDD转换为DataFrame？因为这样的话，我们就可以直接针对HDFS等任何可以构建为RDD的数据，使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下，针对HDFS中的数据，直接就可以使用SQL进行查询。 Spark SQL支持两种方阅读全文

posted @ 2020-02-02 23:22 百里登峰阅读(518) 评论(0) 推荐(1)

29.Spark SQL发展史

摘要：Spark 1.0版本开始，推出了Spark SQL。其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了Spark SQL。Shark的性能比Hive就要高出一个数量级，而Spark SQL的性能又比Shark高出一个数量级。阅读全文

posted @ 2020-01-12 17:51 百里登峰阅读(454) 评论(0) 推荐(0)

28.Spark中action的介绍

摘要：新建一个类运行代码运行代码运行代码运行代码运行代码阅读全文

posted @ 2020-01-04 18:07 百里登峰阅读(409) 评论(0) 推荐(0)

27.Spark中transformation的介绍

摘要：Spark支持两种RDD操作：transformation和action。transformation操作会针对已有的RDD创建一个新的RDD；而action则主要是对RDD进行最后的操作，比如遍历、reduce、保存到文件等，并可以返回结果给Driver程序。例如，map就是一种transfo 阅读全文

posted @ 2019-12-15 17:59 百里登峰阅读(957) 评论(0) 推荐(0)

26.Spark创建RDD集合

摘要：打开eclipse创建maven项目 pom.xml文件创建一个WordCountLocal.java文件运行一下集群执行wordcount程序创建一个WordCountCluster.java文件 // 如果要在spark集群上运行，需要修改的，只有两个地方 // 第一，将SparkCon 阅读全文

posted @ 2019-11-10 15:47 百里登峰阅读(712) 评论(0) 推荐(0)

25.Spark下载源码和安装和使用

摘要：安装scala 上传安装包解压配置scala相关的环境变量验证scala安装是否成功把scala分发给node2 node3 node4 分别给node2 node3 node4配置scala的环境变量，并使其生效 spark安装包下载地址：https://archive.apache.or 阅读全文

posted @ 2019-11-09 18:00 百里登峰阅读(1136) 评论(0) 推荐(0)

24.Azkaban调度脚本的编写

摘要：启动azkaban 在启动了server和excutor之后，在浏览器打开azkaban,会发现不能打开，日志报这个错误其实这个问题不难解决，在打开的时候建议用谷歌浏览器：地址是 https://192.168.86.131:8443/（https://你的ip:8433）注意了，之前一直不能打阅读全文

posted @ 2019-10-20 17:58 百里登峰阅读(587) 评论(0) 推荐(0)

23.安装php和echarts进行结合展示图表

摘要：数据展示 http://echarts.baidu.com/index.html 是一个图像展示可以到官方实例中选择各种图通过下载例子新建echartdome.php 通过浏览器打开但是我们必须通过phpstudy来运行，不能直接这样打开网页先把echartdome.php改成index. 阅读全文

posted @ 2019-08-29 00:11 百里登峰阅读(2071) 评论(0) 推荐(0)

22.把hive表中数据导入到mysql中

摘要：先通过可视化工具链接mysql，在链接的时候用sqoop 用户登录在数据库userdb下新建表保存，输入表名upflow 现在我们需要把hive里面的数据通过sqoop导入到mysql里面可以看到mysql的数据阅读全文

posted @ 2019-08-26 23:08 百里登峰阅读(4404) 评论(0) 推荐(0)

21.根据hive绑定数据统计计算保存到hive表中

摘要：创建upflow表将表access里面的内容导入到upflow表中阅读全文

posted @ 2019-08-25 17:50 百里登峰阅读(307) 评论(0) 推荐(0)

20.采集项目流程篇之清洗数据绑定到hive表中

摘要：先启动hive 在mydb2这个数据库中创建表；把清洗后的数据导入到刚刚创建的hive表中阅读全文

posted @ 2019-08-25 16:46 百里登峰阅读(317) 评论(0) 推荐(0)

19.通过MAPREDUCE 把收集数据进行清洗

摘要：在eclipse软件里创建一个maven项目 jdk要换成本地安装的1.8版本的加载pom.xml文件在加载依赖包的时候如果出现错误，在仓库里找不到1.8jdk.tools 在这个地方改成本地的jdk绝对路径，再重新加载一次maven的依赖包我这里修改成在项目下新建AccessLogPreP 阅读全文

posted @ 2019-08-20 00:35 百里登峰阅读(643) 评论(0) 推荐(0)

18.linux日志收集数据到hdfs上面

摘要：先创建一个目录在这个job目录下创建upload.sh文件对upload.sh进行编辑然后新建目录，并上传日志文件给脚本赋予权限在HDFS上新建目录执行脚本可以看到结果阅读全文

posted @ 2019-06-21 14:03 百里登峰阅读(698) 评论(0) 推荐(0)

17.Azkaban实战

摘要：首先创建一个command.job文件然后打成zip压缩包上传刚刚打包的zip包上传完后可以执行他可以定时执行现在我们立马执行现在我们要执行一个脚本新建一个commad1.job文件再编写一个hello,sh脚本把两个文件都选上一起打包上传刚刚打的zip包执行创建有依赖关系的阅读全文

posted @ 2019-06-16 13:37 百里登峰阅读(184) 评论(0) 推荐(0)

16.Azkaban的安装

摘要：工作流调度器azkaban 2.1 概述 2.1.1为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划，需要一阅读全文

posted @ 2019-05-19 22:00 百里登峰阅读(324) 评论(0) 推荐(0)

15.sqoop数据从mysql里面导入到HDFS里面

摘要：表数据在mysql中有一个库userdb中三个表：emp, emp_add和emp_contact 表emp id name deg salary dept 1201 gopal manager 50,000 TP 1202 manisha Proof reader 50,000 TP 1203 阅读全文

posted @ 2019-05-17 18:01 百里登峰阅读(4402) 评论(0) 推荐(0)

14.Sqoop把数据从HDFS导出到mysql

摘要：创建数据文件把数据文件上传到集群在HDFS上创建目录把数据文件上传到HDFS上登录Mysql 在mysql里创建一个表现在需要从HDFS上把数据导入到mysql中对应的表执行命令查看Mysql表的数据阅读全文

posted @ 2019-05-17 12:07 百里登峰阅读(1164) 评论(0) 推荐(0)

13.sqoop的安装

摘要：上传sqoop压缩包，并解压给sqoop一个软链接给sqoop配置环境变量使环境变量生效给文件重命名一下打开sqoop-env.sh并编辑在/opt/modules/sqoop/lib目录下加入mysql的jdbc驱动包验证一下阅读全文

posted @ 2019-05-17 11:02 百里登峰阅读(203) 评论(0) 推荐(0)

百里登风

导航

公告

随笔分类 - 电视收视率项目