这位怪蜀黍 快来逗我玩吧!

关闭页面特效

随笔分类 -  离线数据仓库

hive+spark+flink离线数仓
项目实战从0到1之hive(21)企业级数据仓库构建(三):数据采集模块环境搭建(2)
摘要:5)Flume安装 一、Flume概述 【1】Flume简介 1)Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统 2)Flume可以采集文件,例如:socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、HBase、h 阅读全文
posted @ 2020-09-22 15:30 大码王 阅读(612) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(20)企业级数据仓库构建(三):数据采集模块环境搭建(1)
摘要:一、数据采集模块 Linux基本配置 【1】Linux环境搭建 1).修改MAC地址 方法1:vim /etc/udev/rules.d/70-persistent-net.rules 删除eth0,将eth1修改为eth0 方法2:rm -rf /etc/udev/rules.d/70-persi 阅读全文
posted @ 2020-09-22 11:37 大码王 阅读(709) 评论(1) 推荐(0) 编辑
项目实战从0到1之hive(19) 企业级数据仓库构建(二)
摘要:一、数据生成模块1)埋点数据基本格式 公共字段:基本所有安卓手机都包含的字段 业务(事件)字段:埋点上报的字段,有具体的业务类型 示例如下<ignore_js_op>2)示例日志(服务器时间戳 | 日志)如下注意:事件字段包含多个用户行为数据3)事件日志数据【3.1】商品列表页(loading)事件 阅读全文
posted @ 2020-09-22 11:06 大码王 阅读(335) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(18) 企业级数据仓库构建(一)
摘要:一、数据仓库 数据仓库(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等数据仓库,并不是数据的最终目 的地,而是为数据最终的目的地做好准备。这些准备包括对数据的:清洗,转义,分类, 阅读全文
posted @ 2020-09-22 10:56 大码王 阅读(814) 评论(0) 推荐(1) 编辑
项目实战从0到1之hive(17)hive求新增用户数,日活,留存率
摘要:很简单的sql 用户分析语句 :只要自定义简单的udf函数 获取统计时间createdatms字段的 使用的日历类 add方法 和simpledateformat 将long类型的 定义多个重载方法 获取返回值int类型 或者long类型 进行时间判断即可 getdaybegin(天开始),比如20 阅读全文
posted @ 2020-09-09 14:17 大码王 阅读(1572) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(16)hive求出场率,环比以及共同通话时长
摘要:一、求出场率与出厂次数 1、有如下数据:(建表语句+sql查询) id names 1 aa,bb,cc,dd,ee 2 aa,bb,ff,ww,qq 3 aa,cc,rr,yy 4 aa,bb,dd,oo,pp 2、求英雄的出场排名top3的出场次数及出场率 create table if not 阅读全文
posted @ 2020-09-09 11:43 大码王 阅读(562) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(15)hive实现连续三个月学生成绩都为A的记录
摘要:1.数据 s1,201801,A s1,201802,A s1,201803,C s1,201804,A s1,201805,A s1,201806,A s2,201801,A s2,201802,B s2,201803,C s2,201804,A s2,201805,D s2,201806,A s 阅读全文
posted @ 2020-09-09 11:33 大码王 阅读(671) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(14)关于hive统计连续的案例
摘要:一:例题1 ​ 统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数 1.建表: create table deal_tb (id int, daystr varchar(10), amount decimal(10,2)); 2.插入数据: insert into deal_tb 阅读全文
posted @ 2020-09-09 11:25 大码王 阅读(1443) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(13)hive经典50题
摘要:一.建表和加载数据 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string) row format delimited fields terminated by 阅读全文
posted @ 2020-09-09 11:06 大码王 阅读(418) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(12)hive内置函数大全
摘要:Hive常用函数大全一览 文章目录 1 关系运算 1.1 1、等值比较: = 1.2 2、不等值比较: 1.3 3、小于比较: < 1.4 4、小于等于比较: <= 1.5 5、大于比较: > 1.6 6、大于等于比较: >= 1.7 7、空值判断: IS NULL 1.8 8、非空判断: IS N 阅读全文
posted @ 2020-09-09 10:27 大码王 阅读(464) 评论(0) 推荐(0) 编辑
项目实战从0到1之hive(11)实现手机号码脱敏的udf函数执行过程
摘要:Hive UDFHive UDF 函数1 POM 文件2.UDF 函数3 利用idea打包4 添加hive udf函数4.1 上传jar包到集群4.2 修改集群hdfs文件权限4.3 注册UDF4.4 使用UDF Hive UDF 函数 1、 POM 文件 <?xml version="1.0" e 阅读全文
posted @ 2020-09-09 10:04 大码王 阅读(1182) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(10)Spark读取HDFS写入Hive
摘要:package com.xxxx.report.service; import com.google.common.collect.Lists; import com.xx.report.config.Constants; import org.apache.spark.api.java.JavaR 阅读全文
posted @ 2020-09-08 17:53 大码王 阅读(841) 评论(1) 推荐(0) 编辑
项目实战从0到1之Spark(9)spark读取Oracle数据到hive中
摘要:近期又有需求为:导入Oracle的表到hive库中; 关于spark读取Oracle到hive有以下两点需要说明: 1、数据量较小时,可以直接使用spark.read.jdbc(orclUrl,table_name,orclProperties)读取,效率应该没什么问题,能很快完成; 2、数据量较大 阅读全文
posted @ 2020-09-08 17:50 大码王 阅读(1721) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(8)spark读取mongodb数据写入hive表中
摘要:一 环境: spark-2.2.0; hive-1.1.0; scala-2.11.8; hadoop-2.6.0-cdh-5.15.0; jdk-1.8;mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_id" : ObjectId("5ba0569cafc9ec432 阅读全文
posted @ 2020-09-08 17:44 大码王 阅读(1098) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(7)读写Redis数据
摘要:@羲凡——只为了更好的活着 Spark2.0 读写Redis数据(scala)——redis5.0.3 特别强调楼主使用spark2.3.2版本,redis5.0.3版本 1.准备工作 在pom.xml文件中要添加 <dependency> <groupId>com.redislabs</group 阅读全文
posted @ 2020-09-08 17:42 大码王 阅读(3123) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(6)Spark 读取mysql中的数据
摘要:Spark(直接读取mysql中的数据) 两种方法的目的:进行mysql数据的数据清洗 方法一: ①执行 [root@head42 spark]# spark-shell --jars /opt/spark/jars/mysql-connector-java-5.1.38.jar ②执行 val d 阅读全文
posted @ 2020-09-08 17:38 大码王 阅读(581) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(5)Spark整合Elasticsearch-从ES读取数据
摘要:由于ES集群在拉取数据时可以提供过滤功能,因此在采用ES集群作为spark运算时的数据来源时,根据过滤条件在拉取的源头就可以过滤了(ES提供过滤),就不必像从hdfs那样必须全部加载进spark的内存根据filter算子过滤,费时费力。 代码: import org.apache.spark.{Sp 阅读全文
posted @ 2020-09-08 17:34 大码王 阅读(1494) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(4)SparkSQL读取HBase数据
摘要:这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读). 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler . hadoop-2.3.0-cdh5.0.0 apache-hive-0. 阅读全文
posted @ 2020-09-08 17:31 大码王 阅读(1009) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(3)spark读取hive数据
摘要:1.首先将集群的这3个文件hive-site.xml,core-size.xml,hdfs-site.xml放到资源文件里(必须,否则报错) 2.代码方面。下面几个测试都可以运行。 1)test03.java import org.apache.spark.sql.SparkSession; imp 阅读全文
posted @ 2020-09-08 17:29 大码王 阅读(2286) 评论(0) 推荐(0) 编辑
项目实战从0到1之Spark(2)Spark读取和存储HDFS上的数据
摘要:本篇来介绍一下通过Spark来读取和HDFS上的数据,主要包含四方面的内容:将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。 1、启动Hadoop 首先启动咱们的Hadoop,在hadoop的目录下执行下面的命令: rm -rf tm 阅读全文
posted @ 2020-09-08 17:08 大码王 阅读(1057) 评论(0) 推荐(0) 编辑

成都

复制代码

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示