随笔分类 -  大数据

摘要:Hive和HBase的区别 Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hiv 阅读全文
posted @ 2021-06-29 13:57 欣欣姐 阅读(2138) 评论(0) 推荐(0) 编辑
摘要:基础题目 1、Apache Kafka 是什么? Apach Kafka 是一款分布式流处理框架,用于实时构建流处理应用。它有一个核心 的功能广为人知,即作为企业级的消息引擎被广泛使用。 你一定要先明确它的流处理框架地位,这样能给面试官留 下一个很专业的印象。 2、什么是消费者组? 消费者组是 Ka 阅读全文
posted @ 2021-06-28 18:06 欣欣姐 阅读(257) 评论(0) 推荐(0) 编辑
摘要:过程: 此代码在shell中进行编辑,并采用crontab进行定时运行 1.先将每天的数据导导到一张临时表mal.wall_log_url_tmp表中,此表可为内部表 2.然后再将临时表的数据导入到目标表中 mal.wall_log_url #!/bin/sh # upload logs to hd 阅读全文
posted @ 2021-05-27 11:48 欣欣姐 阅读(216) 评论(0) 推荐(0) 编辑
摘要:背景 项目中需要定时将本地文件上传至HDFS系统,按时间进行分目录存放,即每月1号生成一个月的目录,然后将这个月每天的数据存放在此目录下 实现逻辑: 通过判断当天日期,如果为本月一号,即先生成一个月的文件,然后再将数据存放在此目录下,如果不是当月1号,则直接把数据put到该目录下 export PA 阅读全文
posted @ 2021-05-25 18:17 欣欣姐 阅读(229) 评论(0) 推荐(0) 编辑
摘要:1. flume将本地日志按时间读取上传到hdfs上,编辑配置文件 file_wfbmall_log_hdfs.conf,其内容如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = TAILDIR // posi 阅读全文
posted @ 2021-05-18 14:17 欣欣姐 阅读(649) 评论(0) 推荐(0) 编辑
摘要:一、在Linux中运行 首先在Linux中新建下面的目录,里面什么也不要放,然后进入到目录 /opt/data/mapreduce_test/ 1. 然后在里面创建一个test.txt文件,并往里面添加一些需要统计的单词, 2. 接着编辑mapper.py文件,vim mapper.py #!/us 阅读全文
posted @ 2021-05-10 17:50 欣欣姐 阅读(807) 评论(0) 推荐(0) 编辑
摘要:一.HDFS文件授权 hadoop fs -chmod -R 777 /tmp 二.HDFS创建文件 hdfs dfs -mkdir /aaa 三.查看HDFS的文件 hdfs dfs -ls / #查询根目录文件夹 dfs -ls /flume/data #查看某个目录下的文件 四.本地文件上传至 阅读全文
posted @ 2021-05-10 11:46 欣欣姐 阅读(41) 评论(0) 推荐(0) 编辑
摘要:在MapReduce整个过程可以概括为以下过程: input --> map --> shuffle --> reduce -->输出 输入文件会被切分成多个块,每一块都有一个map task map阶段的输出结果会先写到内存缓冲区,然后由缓冲区写到磁盘上。默认的缓冲区大小是100M,溢出的百分比是 阅读全文
posted @ 2021-05-07 17:58 欣欣姐 阅读(521) 评论(0) 推荐(0) 编辑
摘要:前言:数据倾斜大多数是由于数据本身的分布不均匀。故而需要我们使用诸如列裁剪、Mapjoin、GroupBy等方法进行处理。数据倾斜表现:1、任务日志进度长度为99%,在日志监控进度条显示只有几个reduce进度一直没有完成。 2、某一reduce处理时长>平均处理时长 3、job数过多 数据倾斜原因 阅读全文
posted @ 2021-04-29 17:18 欣欣姐 阅读(88) 评论(0) 推荐(0) 编辑
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文
posted @ 2021-04-01 17:57 欣欣姐 阅读(384) 评论(0) 推荐(0) 编辑
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文
posted @ 2021-04-01 15:25 欣欣姐 阅读(1093) 评论(0) 推荐(0) 编辑
摘要:说明,在安装kafka之前,必须将ZooKeeper先行安装好,具体详细的安装过程可参考 https://www.cnblogs.com/cstark/p/14573395.html 在官网 https://zookeeper.apache.org/releases.html#download 下载 阅读全文
posted @ 2021-03-24 15:26 欣欣姐 阅读(62) 评论(0) 推荐(0) 编辑
摘要:背景:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 安装说明: 在官网上下载https://zookeeper.apache.org/re 阅读全文
posted @ 2021-03-24 14:28 欣欣姐 阅读(53) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming Spark Streaming可以整合多种数据源,如Kafka,Hdfs和Flume,甚至是普通的TCP套j借字,经处理后的数据可存储至文件系统,数据库,或显示再仪表盘里。 Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后 阅读全文
posted @ 2021-03-22 11:33 欣欣姐 阅读(366) 评论(0) 推荐(0) 编辑
摘要:以日志文件的解析过程为例,其中部分日志文件样例为: 2021-03-09 06:54:21,907 [http-nio-16680-exec-6-43:tUxRo338DAxy6xpj] INFO [m.u.g.s.l.ThreadLocalLogHandler] - request url: /w 阅读全文
posted @ 2021-03-17 14:23 欣欣姐 阅读(710) 评论(0) 推荐(0) 编辑
摘要:背景:一,在用python编辑spark时,需要在windows本地搭建一套spark环境,然后将编辑好的.py上传到hadoop集群,再进行调用;二,在应用spark进行机器学习时,更多时候还是在windows环境下进行会相对比较方便。 组件准备: 1、Python3.6.7 2、JDK(本文中使 阅读全文
posted @ 2021-03-15 17:18 欣欣姐 阅读(5768) 评论(0) 推荐(0) 编辑
摘要:在安装过程中,请务必注意版本,本人在第一次安装过程中,python版本为3.8,spark版本为3.1.1的,故安装后,在运行pyspark的“动作”语句时,一直报错 Python worker failed to connect back尝试很多办法都无法是解决这个问题, 最后只能将spark版本 阅读全文
posted @ 2021-03-15 16:20 欣欣姐 阅读(4151) 评论(0) 推荐(0) 编辑
摘要:1.背景 在hadoop集群上安装flume,将日志数据传输到HDFS上去 2.规划 三台主机的主机名分别为master,slave1,slave2(防火墙已关闭) 由slave1和slave2收集日志信息,传给master,再由master上传到hdfs上 3.配置 3.1上传解压 在slave1 阅读全文
posted @ 2021-03-09 17:58 欣欣姐 阅读(739) 评论(0) 推荐(0) 编辑
摘要:背景:在现有的hadoop集群上,进行安装Spark 需要准备:hadoop,scala,jdk spark需要依赖于java运行,所以需要jdk,版本选用2.4.5 scala安装: 必须在jdk安装完毕才安装,下载scala:https://downloads.lightbend.com/sca 阅读全文
posted @ 2021-03-09 14:46 欣欣姐 阅读(241) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示