百里登风

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

随笔分类 -  电视收视率项目

1 2 下一页

32.电视采集项目流程spark篇通过Azkaban调度spark
摘要:新建AccessLogDriverCluster类 package com.it19gong.clickproject; import java.sql.PreparedStatement; import java.util.ArrayList; import java.util.List; imp 阅读全文

posted @ 2020-02-04 16:40 百里登峰 阅读(782) 评论(0) 推荐(0) 编辑

31.电视采集项目流程spark篇通过sparksql处理业务逻辑
摘要:新建包 package com.it19gong.clickproject; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; 阅读全文

posted @ 2020-02-03 17:00 百里登峰 阅读(359) 评论(0) 推荐(0) 编辑

30.Spark SQL和DataFrame
摘要:RDD转换为DataFrame 为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。 这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以使用SQL进行查询。 Spark SQL支持两种方 阅读全文

posted @ 2020-02-02 23:22 百里登峰 阅读(506) 评论(0) 推荐(1) 编辑

29.Spark SQL发展史
摘要:Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。 阅读全文

posted @ 2020-01-12 17:51 百里登峰 阅读(435) 评论(0) 推荐(0) 编辑

28.Spark中action的介绍
摘要:新建一个类 运行代码 运行代码 运行代码 运行代码 运行代码 阅读全文

posted @ 2020-01-04 18:07 百里登峰 阅读(400) 评论(0) 推荐(0) 编辑

27.Spark中transformation的介绍
摘要:Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD; 而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。 例如,map就是一种transfo 阅读全文

posted @ 2019-12-15 17:59 百里登峰 阅读(905) 评论(0) 推荐(0) 编辑

26.Spark创建RDD集合
摘要:打开eclipse创建maven项目 pom.xml文件 创建一个WordCountLocal.java文件 运行一下 集群执行wordcount程序 创建一个WordCountCluster.java文件 // 如果要在spark集群上运行,需要修改的,只有两个地方 // 第一,将SparkCon 阅读全文

posted @ 2019-11-10 15:47 百里登峰 阅读(699) 评论(0) 推荐(0) 编辑

25.Spark下载源码和安装和使用
摘要:安装scala 上传安装包 解压 配置scala相关的环境变量 验证scala安装是否成功 把scala分发给node2 node3 node4 分别给node2 node3 node4配置scala的环境变量,并使其生效 spark安装包下载地址:https://archive.apache.or 阅读全文

posted @ 2019-11-09 18:00 百里登峰 阅读(1114) 评论(0) 推荐(0) 编辑

24.Azkaban调度脚本的编写
摘要:启动azkaban 在启动了server和excutor之后,在浏览器打开azkaban,会发现不能打开,日志报这个错误 其实这个问题不难解决,在打开的时候建议用谷歌浏览器:地址是 https://192.168.86.131:8443/(https://你的ip:8433) 注意了,之前一直不能打 阅读全文

posted @ 2019-10-20 17:58 百里登峰 阅读(567) 评论(0) 推荐(0) 编辑

23.安装php和echarts进行结合展示图表
摘要:数据展示 http://echarts.baidu.com/index.html 是一个图像展示 可以到官方实例中选择各种图 通过下载例子 新建echartdome.php 通过浏览器打开 但是我们必须通过phpstudy来运行,不能直接这样打开网页 先把echartdome.php改成index. 阅读全文

posted @ 2019-08-29 00:11 百里登峰 阅读(2036) 评论(0) 推荐(0) 编辑

22.把hive表中数据导入到mysql中
摘要:先通过可视化工具链接mysql,在链接的时候用sqoop 用户登录 在数据库userdb下新建表 保存,输入表名upflow 现在我们需要把hive里面的数据通过sqoop导入到mysql里面 可以看到mysql的数据 阅读全文

posted @ 2019-08-26 23:08 百里登峰 阅读(4351) 评论(0) 推荐(0) 编辑

21.根据hive绑定数据统计计算保存到hive表中
摘要:创建upflow表 将表access里面的内容导入到upflow表中 阅读全文

posted @ 2019-08-25 17:50 百里登峰 阅读(300) 评论(0) 推荐(0) 编辑

20.采集项目流程篇之清洗数据绑定到hive表中
摘要:先启动hive 在mydb2这个数据库中创建表; 把清洗后的数据导入到刚刚创建的hive表中 阅读全文

posted @ 2019-08-25 16:46 百里登峰 阅读(308) 评论(0) 推荐(0) 编辑

19.通过MAPREDUCE 把收集数据进行清洗
摘要:在eclipse软件里创建一个maven项目 jdk要换成本地安装的1.8版本的 加载pom.xml文件 在加载依赖包的时候如果出现错误,在仓库里找不到1.8jdk.tools 在这个地方改成本地的jdk绝对路径,再重新加载一次maven的依赖包 我这里修改成 在项目下新建AccessLogPreP 阅读全文

posted @ 2019-08-20 00:35 百里登峰 阅读(613) 评论(0) 推荐(0) 编辑

18.linux日志收集数据到hdfs上面
摘要:先创建一个目录 在这个job目录下创建upload.sh文件 对upload.sh进行编辑 然后新建目录,并上传日志文件 给脚本赋予权限 在HDFS上新建目录 执行脚本 可以看到结果 阅读全文

posted @ 2019-06-21 14:03 百里登峰 阅读(676) 评论(0) 推荐(0) 编辑

17.Azkaban实战
摘要:首先创建一个command.job文件 然后打成zip压缩包 上传刚刚打包的zip包 上传完后可以执行他 可以定时执行 现在我们立马执行 现在我们要执行一个脚本 新建一个commad1.job文件 再编写一个hello,sh脚本 把两个文件都选上一起打包 上传刚刚打的zip包 执行 创建有依赖关系的 阅读全文

posted @ 2019-06-16 13:37 百里登峰 阅读(161) 评论(0) 推荐(0) 编辑

16.Azkaban的安装
摘要:工作流调度器azkaban 2.1 概述 2.1.1为什么需要工作流调度系统 l 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 l 各任务单元之间存在时间先后及前后依赖关系 l 为了很好地组织起这样的复杂执行计划,需要一 阅读全文

posted @ 2019-05-19 22:00 百里登峰 阅读(308) 评论(0) 推荐(0) 编辑

15.sqoop数据从mysql里面导入到HDFS里面
摘要:表数据 在mysql中有一个库userdb中三个表:emp, emp_add和emp_contact 表emp id name deg salary dept 1201 gopal manager 50,000 TP 1202 manisha Proof reader 50,000 TP 1203 阅读全文

posted @ 2019-05-17 18:01 百里登峰 阅读(4337) 评论(0) 推荐(0) 编辑

14.Sqoop把数据从HDFS导出到mysql
摘要:创建数据文件 把数据文件上传到集群 在HDFS上创建目录 把数据文件上传到HDFS上 登录Mysql 在mysql里创建一个表 现在需要从HDFS上把数据导入到mysql中对应的表 执行命令 查看Mysql表的数据 阅读全文

posted @ 2019-05-17 12:07 百里登峰 阅读(1119) 评论(0) 推荐(0) 编辑

13.sqoop的安装
摘要:上传sqoop压缩包,并解压 给sqoop一个软链接 给sqoop配置环境变量 使环境变量生效 给文件重命名一下 打开sqoop-env.sh并编辑 在/opt/modules/sqoop/lib目录下加入mysql的jdbc驱动包 验证一下 阅读全文

posted @ 2019-05-17 11:02 百里登峰 阅读(193) 评论(0) 推荐(0) 编辑

1 2 下一页
点击右上角即可分享
微信分享提示