随笔分类 - 大数据
摘要:Hive和HBase的区别 Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hiv
阅读全文
摘要:基础题目 1、Apache Kafka 是什么? Apach Kafka 是一款分布式流处理框架,用于实时构建流处理应用。它有一个核心 的功能广为人知,即作为企业级的消息引擎被广泛使用。 你一定要先明确它的流处理框架地位,这样能给面试官留 下一个很专业的印象。 2、什么是消费者组? 消费者组是 Ka
阅读全文
摘要:过程: 此代码在shell中进行编辑,并采用crontab进行定时运行 1.先将每天的数据导导到一张临时表mal.wall_log_url_tmp表中,此表可为内部表 2.然后再将临时表的数据导入到目标表中 mal.wall_log_url #!/bin/sh # upload logs to hd
阅读全文
摘要:背景 项目中需要定时将本地文件上传至HDFS系统,按时间进行分目录存放,即每月1号生成一个月的目录,然后将这个月每天的数据存放在此目录下 实现逻辑: 通过判断当天日期,如果为本月一号,即先生成一个月的文件,然后再将数据存放在此目录下,如果不是当月1号,则直接把数据put到该目录下 export PA
阅读全文
摘要:1. flume将本地日志按时间读取上传到hdfs上,编辑配置文件 file_wfbmall_log_hdfs.conf,其内容如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = TAILDIR // posi
阅读全文
摘要:一、在Linux中运行 首先在Linux中新建下面的目录,里面什么也不要放,然后进入到目录 /opt/data/mapreduce_test/ 1. 然后在里面创建一个test.txt文件,并往里面添加一些需要统计的单词, 2. 接着编辑mapper.py文件,vim mapper.py #!/us
阅读全文
摘要:一.HDFS文件授权 hadoop fs -chmod -R 777 /tmp 二.HDFS创建文件 hdfs dfs -mkdir /aaa 三.查看HDFS的文件 hdfs dfs -ls / #查询根目录文件夹 dfs -ls /flume/data #查看某个目录下的文件 四.本地文件上传至
阅读全文
摘要:在MapReduce整个过程可以概括为以下过程: input --> map --> shuffle --> reduce -->输出 输入文件会被切分成多个块,每一块都有一个map task map阶段的输出结果会先写到内存缓冲区,然后由缓冲区写到磁盘上。默认的缓冲区大小是100M,溢出的百分比是
阅读全文
摘要:前言:数据倾斜大多数是由于数据本身的分布不均匀。故而需要我们使用诸如列裁剪、Mapjoin、GroupBy等方法进行处理。数据倾斜表现:1、任务日志进度长度为99%,在日志监控进度条显示只有几个reduce进度一直没有完成。 2、某一reduce处理时长>平均处理时长 3、job数过多 数据倾斜原因
阅读全文
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu
阅读全文
摘要:通过flume将日志数据读取到kafka中,然后再利用spark去消费kafka的数据, 1.保证zookeeper服务一直开启 2.配置flume文件,其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu
阅读全文
摘要:说明,在安装kafka之前,必须将ZooKeeper先行安装好,具体详细的安装过程可参考 https://www.cnblogs.com/cstark/p/14573395.html 在官网 https://zookeeper.apache.org/releases.html#download 下载
阅读全文
摘要:背景:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件,它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 安装说明: 在官网上下载https://zookeeper.apache.org/re
阅读全文
摘要:Spark Streaming Spark Streaming可以整合多种数据源,如Kafka,Hdfs和Flume,甚至是普通的TCP套j借字,经处理后的数据可存储至文件系统,数据库,或显示再仪表盘里。 Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆分,然后
阅读全文
摘要:以日志文件的解析过程为例,其中部分日志文件样例为: 2021-03-09 06:54:21,907 [http-nio-16680-exec-6-43:tUxRo338DAxy6xpj] INFO [m.u.g.s.l.ThreadLocalLogHandler] - request url: /w
阅读全文
摘要:背景:一,在用python编辑spark时,需要在windows本地搭建一套spark环境,然后将编辑好的.py上传到hadoop集群,再进行调用;二,在应用spark进行机器学习时,更多时候还是在windows环境下进行会相对比较方便。 组件准备: 1、Python3.6.7 2、JDK(本文中使
阅读全文
摘要:在安装过程中,请务必注意版本,本人在第一次安装过程中,python版本为3.8,spark版本为3.1.1的,故安装后,在运行pyspark的“动作”语句时,一直报错 Python worker failed to connect back尝试很多办法都无法是解决这个问题, 最后只能将spark版本
阅读全文
摘要:1.背景 在hadoop集群上安装flume,将日志数据传输到HDFS上去 2.规划 三台主机的主机名分别为master,slave1,slave2(防火墙已关闭) 由slave1和slave2收集日志信息,传给master,再由master上传到hdfs上 3.配置 3.1上传解压 在slave1
阅读全文
摘要:背景:在现有的hadoop集群上,进行安装Spark 需要准备:hadoop,scala,jdk spark需要依赖于java运行,所以需要jdk,版本选用2.4.5 scala安装: 必须在jdk安装完毕才安装,下载scala:https://downloads.lightbend.com/sca
阅读全文