2022 年 9月随笔档案 - jsqup

hosts(修改ip配置C:\Windows\System32\drivers\etc\hosts)

摘要：路径 C:\Windows\System32\drivers\etc\hosts 注意 HDFS可视化界面上如果要下载某一个，必须配置主机和ip的映射关系阅读全文

posted @ 2022-09-20 11:42 jsqup 阅读(158) 评论(0) 推荐(0) 编辑

摘要：上传，解压 tar -zxvf kafka-eagle-bin-3.0.1.tar.gz cd kafka-eagle-bin-3.0.1 tar -zxvf efak-web-3.0.1-bin.tar.gz mv efak-web-3.0.1 /opt/app/ 配置文件system-confi 阅读全文

posted @ 2022-09-20 10:26 jsqup 阅读(595) 评论(0) 推荐(0) 编辑

6.道路卡口车流量统计

摘要：import java.util.Properties import org.apache.spark.SparkConf import org.apache.spark.sql.{SaveMode, SparkSession} object DayFlow { def main(args: Arr 阅读全文

posted @ 2022-09-15 11:40 jsqup 阅读(245) 评论(0) 推荐(0) 编辑

3.采集数据(将模拟好的数据采集到HDFS上)

摘要：fileToHdfs.conf文件 #sources别名:r1 a1.sources = r1 #sink别名:k1 a1.sinks = k1 #channel别名：c1 a1.channels = c1 # 定义flume的source数据源文件 a1.sources.r1.type = ex 阅读全文

posted @ 2022-09-15 10:26 jsqup 阅读(74) 评论(0) 推荐(0) 编辑

5.道路卡口摄像头的异常状态统计

摘要：package camera import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession // 摄像异常状态的功能代码 object CameraAbnormality { def main(args: Arr 阅读全文

posted @ 2022-09-15 10:19 jsqup 阅读(93) 评论(0) 推荐(0) 编辑

4.项目中要引入的资源

摘要：pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance 阅读全文

posted @ 2022-09-15 10:17 jsqup 阅读(22) 评论(0) 推荐(0) 编辑

2.模拟数据

摘要：日期模拟 import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import java.util.Random; public class DataUtil { public stat 阅读全文

posted @ 2022-09-15 10:13 jsqup 阅读(27) 评论(0) 推荐(0) 编辑

1.项目流程

摘要：图阅读全文

posted @ 2022-09-15 10:08 jsqup 阅读(20) 评论(0) 推荐(0) 编辑

hbase读写流程

摘要：读流程 1) HRegionServer保存着meta表以及表数据，要访问表数据，首先Client先去访问zookeeper，从zookeeper里面获取meta表所在的位置信息，即找到这个meta表在哪个HRegionServer上保存着。 2) 接着Client通过刚才获取到的HRegionSe 阅读全文

posted @ 2022-09-13 10:20 jsqup 阅读(22) 评论(0) 推荐(0) 编辑

HBase命令行操作

摘要：hbase安装完成之后，给我们提供了一个命令行客户端，hbase shell 命名空间有关的命令：namespace组增删改查 create_namespace "demo" # 创建一个demo的命名空间 drop_namespace "demo" # 删除一个demo的命名空间 list_na 阅读全文

posted @ 2022-09-12 22:37 jsqup 阅读(195) 评论(0) 推荐(0) 编辑

HBase概述

摘要：1. 概述 HBase是基于Hadoop的一个非关系型数据库（NoSQL数据库），HBase存储底层也是基于HDFS存储的。HBase和Hive很像，Hive是数据仓库 2. HBase中的基本概念 NameSpace:类似于关系型数据库的Database，每个命名空间下有多个表 Table:表名阅读全文

posted @ 2022-09-12 17:03 jsqup 阅读(45) 评论(0) 推荐(0) 编辑

SparkStandalone--HA搭建

摘要：不需要设置master在哪个节点上，只要在配置了HA模式的Spark集群上，任何一台机器都可以启动Master 需要先启动zookeeper zkServer.sh start 三台节点 [root@node1 conf]# pwd /opt/app/spark-2.3.1/conf [root@n 阅读全文

posted @ 2022-09-09 17:22 jsqup 阅读(27) 评论(0) 推荐(0) 编辑

Zookeeper--HA搭建

摘要：1. 上传zookeeper解压： tar -zxvf zookeeper-3.4.5.tar.gz 2. 修改配置文件[三台节点] [node123]# cd /opt/app/data/zookeeper-3.4.5/conf/ [node123]# mv zoo_sample.cfg zoo. 阅读全文

posted @ 2022-09-09 15:45 jsqup 阅读(24) 评论(0) 推荐(0) 编辑

Kafka--HA搭建

摘要：[123]zkServer.sh start [node123]# tar -xvf kafka_2.11-0.8.2.1.tgz [node123]# cd kafka_2.11-0.8.2.1/config [node123]# vi server.properties { broker.id= 阅读全文

posted @ 2022-09-09 15:45 jsqup 阅读(18) 评论(0) 推荐(0) 编辑

YARN-HA搭建

posted @ 2022-09-09 15:38 jsqup 阅读(17) 评论(0) 推荐(0) 编辑

HBASE-HA搭建

摘要：Zookeeper集群的正常部署，并启动[三个节点] zkServer.sh start Hadoop集群的正常部署并启动[三个节点] start-dfs.sh start-yarn.sh HBASE高可用搭建 hbase-env.sh export JAVA_HOME=/opt/app/jdk1. 阅读全文

posted @ 2022-09-09 11:41 jsqup 阅读(44) 评论(0) 推荐(0) 编辑

HDFS-HA搭建

摘要：进程介绍 1. Zkfc(ZKFailoverController)作用：切换NN状态；对NN进行心跳保持(监听)，当发现NN active异常，会通知Zookeeper,然后ZK重新选举一个新的NN接管，切换成NN active状态; 2. JournalNode NameNode之间共享数据阅读全文

posted @ 2022-09-09 09:38 jsqup 阅读(25) 评论(0) 推荐(0) 编辑

Kafka、Flume、SparkStreaming的整合案例(电商网站的黑名单统计)

摘要：背景：电商网站用户在网站的每次行为都会以日志数据的形式加以记录到日志文件中，其中用户的行为数据日志格式如下：1,2268318,pv,1511544070 黑名单用户的定义规则如下：如果某一件商品被同一用户在1分钟之内点击超过10次，那么此时这个用户就是当前商品的黑名单用户，我们需要将黑名单用户阅读全文

posted @ 2022-09-08 14:42 jsqup 阅读(84) 评论(0) 推荐(0) 编辑

一般真实业务情况下，实时/离线计算的数据流程（技术选型）

摘要：![](https://img2022.cnblogs.com/blog/2487693/202209/2487693-20220908134139595-978773126.png) 阅读全文

posted @ 2022-09-08 13:41 jsqup 阅读(22) 评论(0) 推荐(0) 编辑

Kafka和Spark Streaming实时计算框架整合说明

摘要：Spark Streaming只能充当Kafka的消费者 Spark Steaming整合Kafka数据，读取Kafka数据有两种方式 1、Receiver（使用Spark中接受器去处理Kafka的数据）方法连接zookeeper集群读取数据仅作了解（被淘汰） 2、Direct方法--直连kaf 阅读全文

posted @ 2022-09-08 10:20 jsqup 阅读(36) 评论(0) 推荐(0) 编辑

sparkstreming整合kafka(Spark Streaming相当于是Kafka的一个消费者)

摘要：引入pom依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance 阅读全文

posted @ 2022-09-08 10:13 jsqup 阅读(86) 评论(0) 推荐(0) 编辑

kafka与flume整合(kafka充当source,sink,channel)

摘要：1. Kafka充当Flume的source数据源，此时也就意味着Flume需要采集Kafka的数据，Flume相当于是kafka的一个消费者 .conf文件(KafkaToConsole.conf) #sources别名:r1 a1.sources = r1 #sink别名:k1 a1.sinks 阅读全文

posted @ 2022-09-08 09:45 jsqup 阅读(269) 评论(0) 推荐(0) 编辑

6. kafka案例--将控制台输入的每一行数据发送到Kafka中进行存储

摘要：案例要求 /** * 要求将控制台输入的每一行数据发送到Kafka中进行存储 * 输入的每一行数据形式如下 * s001 zs 20 男 * s002 ls 21 女 * 要求将数据发送到我们的kafka的student主题中同时要求发送的数据以学生编号为key，以学生信息为value形式进行数据阅读全文

posted @ 2022-09-07 22:46 jsqup 阅读(102) 评论(0) 推荐(0) 编辑

5. 消费者消费数据