大数据 - 随笔分类 - 欣欣姐

Hive和HBase的区别

摘要：Hive和HBase的区别 Hive是为了简化编写MapReduce程序而生的，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hiv 阅读全文

posted @ 2021-06-29 13:57 欣欣姐阅读(2162) 评论(0) 推荐(0)

KAFKA经典问题

摘要：基础题目 1、Apache Kafka 是什么? Apach Kafka 是一款分布式流处理框架，用于实时构建流处理应用。它有一个核心的功能广为人知，即作为企业级的消息引擎被广泛使用。你一定要先明确它的流处理框架地位，这样能给面试官留下一个很专业的印象。 2、什么是消费者组? 消费者组是 Ka 阅读全文

posted @ 2021-06-28 18:06 欣欣姐阅读(327) 评论(0) 推荐(0)

HDFS定时导入Hive的分区表

摘要：过程：此代码在shell中进行编辑，并采用crontab进行定时运行 1.先将每天的数据导导到一张临时表mal.wall_log_url_tmp表中，此表可为内部表 2.然后再将临时表的数据导入到目标表中 mal.wall_log_url #!/bin/sh # upload logs to hd 阅读全文

posted @ 2021-05-27 11:48 欣欣姐阅读(230) 评论(0) 推荐(0)

linux本地日志文件定时上传至HDFS

摘要：背景项目中需要定时将本地文件上传至HDFS系统，按时间进行分目录存放，即每月1号生成一个月的目录，然后将这个月每天的数据存放在此目录下实现逻辑：通过判断当天日期，如果为本月一号，即先生成一个月的文件，然后再将数据存放在此目录下，如果不是当月1号，则直接把数据put到该目录下 export PA 阅读全文

posted @ 2021-05-25 18:17 欣欣姐阅读(273) 评论(0) 推荐(0)

flume监控本地文件并上传至HDFS

摘要：1. flume将本地日志按时间读取上传到hdfs上，编辑配置文件 file_wfbmall_log_hdfs.conf，其内容如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = TAILDIR // posi 阅读全文

posted @ 2021-05-18 14:17 欣欣姐阅读(700) 评论(0) 推荐(0)

Python中的MapReduce以及在Hadoop环境下运行之词频统计

摘要：一、在Linux中运行首先在Linux中新建下面的目录，里面什么也不要放，然后进入到目录 /opt/data/mapreduce_test/ 1. 然后在里面创建一个test.txt文件,并往里面添加一些需要统计的单词， 2. 接着编辑mapper.py文件，vim mapper.py #!/us 阅读全文

posted @ 2021-05-10 17:50 欣欣姐阅读(897) 评论(0) 推荐(0)

Hadoop常用操作

摘要：一.HDFS文件授权 hadoop fs -chmod -R 777 /tmp 二.HDFS创建文件 hdfs dfs -mkdir /aaa 三.查看HDFS的文件 hdfs dfs -ls / #查询根目录文件夹 dfs -ls /flume/data #查看某个目录下的文件四.本地文件上传至阅读全文

posted @ 2021-05-10 11:46 欣欣姐阅读(52) 评论(0) 推荐(0)

MapReduce的工作原理

摘要：在MapReduce整个过程可以概括为以下过程： input --> map --> shuffle --> reduce -->输出输入文件会被切分成多个块，每一块都有一个map task map阶段的输出结果会先写到内存缓冲区，然后由缓冲区写到磁盘上。默认的缓冲区大小是100M，溢出的百分比是阅读全文

posted @ 2021-05-07 17:58 欣欣姐阅读(570) 评论(0) 推荐(0)

hive数据倾斜

摘要：前言：数据倾斜大多数是由于数据本身的分布不均匀。故而需要我们使用诸如列裁剪、Mapjoin、GroupBy等方法进行处理。数据倾斜表现：1、任务日志进度长度为99%，在日志监控进度条显示只有几个reduce进度一直没有完成。 2、某一reduce处理时长>平均处理时长 3、job数过多数据倾斜原因阅读全文

posted @ 2021-04-29 17:18 欣欣姐阅读(97) 评论(0) 推荐(0)

spark实时消费kafka（有状态转换）

摘要：通过flume将日志数据读取到kafka中，然后再利用spark去消费kafka的数据， 1.保证zookeeper服务一直开启 2.配置flume文件，其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文

posted @ 2021-04-01 17:57 欣欣姐阅读(402) 评论(0) 推荐(0)

spark 消费kafka的数据

摘要：通过flume将日志数据读取到kafka中，然后再利用spark去消费kafka的数据， 1.保证zookeeper服务一直开启 2.配置flume文件，其配置信息如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configu 阅读全文

posted @ 2021-04-01 15:25 欣欣姐阅读(1121) 评论(0) 推荐(0)

kafka的安装配置

摘要：说明，在安装kafka之前，必须将ZooKeeper先行安装好，具体详细的安装过程可参考 https://www.cnblogs.com/cstark/p/14573395.html 在官网 https://zookeeper.apache.org/releases.html#download 下载阅读全文

posted @ 2021-03-24 15:26 欣欣姐阅读(71) 评论(0) 推荐(0)

zookeeper集群安装部署

摘要：背景：ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件，它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。安装说明：在官网上下载https://zookeeper.apache.org/re 阅读全文

posted @ 2021-03-24 14:28 欣欣姐阅读(77) 评论(0) 推荐(0)

Spark流计算

摘要：Spark Streaming Spark Streaming可以整合多种数据源，如Kafka，Hdfs和Flume，甚至是普通的TCP套j借字，经处理后的数据可存储至文件系统，数据库，或显示再仪表盘里。 Spark Streaming的基本原理是将实时输入数据流以时间片（秒级）为单位进行拆分，然后阅读全文

posted @ 2021-03-22 11:33 欣欣姐阅读(383) 评论(0) 推荐(0)

pyspark常见使用方法

摘要：以日志文件的解析过程为例，其中部分日志文件样例为： 2021-03-09 06:54:21,907 [http-nio-16680-exec-6-43:tUxRo338DAxy6xpj] INFO [m.u.g.s.l.ThreadLocalLogHandler] - request url: /w 阅读全文

posted @ 2021-03-17 14:23 欣欣姐阅读(755) 评论(0) 推荐(0)

spark在windows环境下安装和配置详解

摘要：背景：一，在用python编辑spark时，需要在windows本地搭建一套spark环境，然后将编辑好的.py上传到hadoop集群，再进行调用；二，在应用spark进行机器学习时，更多时候还是在windows环境下进行会相对比较方便。组件准备： 1、Python3.6.7 2、JDK（本文中使阅读全文

posted @ 2021-03-15 17:18 欣欣姐阅读(6291) 评论(0) 推荐(0)

pyspark踩坑：Python worker failed to connect back和an integer is required

摘要：在安装过程中，请务必注意版本，本人在第一次安装过程中，python版本为3.8，spark版本为3.1.1的，故安装后，在运行pyspark的“动作”语句时，一直报错 Python worker failed to connect back尝试很多办法都无法是解决这个问题，最后只能将spark版本阅读全文

posted @ 2021-03-15 16:20 欣欣姐阅读(4334) 评论(0) 推荐(0)

Flume的安装与配置

摘要：1.背景在hadoop集群上安装flume，将日志数据传输到HDFS上去 2.规划三台主机的主机名分别为master,slave1,slave2(防火墙已关闭) 由slave1和slave2收集日志信息,传给master,再由master上传到hdfs上 3.配置 3.1上传解压在slave1 阅读全文

posted @ 2021-03-09 17:58 欣欣姐阅读(883) 评论(0) 推荐(0)

Spark安装和配置

摘要：背景：在现有的hadoop集群上，进行安装Spark 需要准备：hadoop,scala,jdk spark需要依赖于java运行，所以需要jdk，版本选用2.4.5 scala安装：必须在jdk安装完毕才安装，下载scala：https://downloads.lightbend.com/sca 阅读全文

posted @ 2021-03-09 14:46 欣欣姐阅读(272) 评论(0) 推荐(0)

欣欣姐

随笔分类 - 大数据

公告