大数据实训

实训内容

本次实训,是以大数据基础知识为主要实训内容,结合目前主流框架。( Springboot 框架 + 前端html、css、js)
  a、环境搭建
  b、本次实训主要讲解Spark框架如何处理数据
   1、离线数据的处理
   2、实时数据的处理
  c、主要Java后端开发框架Springboot框架+echarts作为框架整合
   1、Springboot框架的基础应用
   2、数据可视化
  d、项目打包和项目运行
   1、Maven作为本次实训项目管控工具,项目jar包管控、项目打包、项目部署
   2、项目答辩

环境搭建

  a、hadoop集群搭建
  b、Flume环境搭建
    1.官网下载安装包
    2.配置Flume环境变量

解压flume软件包:
[root@master ~]# tar -zxvf /soft/apache-flume-1.7.0-bin.tar.gz -C /opt

配置flume的环境变量:
[root@master ~]# vi /etc/profile

#配置flume的环境变量
export FLUME_HOME=/opt/apache-flume-1.7.0-bin
export PATH=$JAVA_HOME/bin:$FLUME_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH:$HOME/bin

生效环境变量:
[root@master ~]# source /etc/profile
[root@master ~]# flume-ng version
Flume 1.7.0
Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git
Revision: 511d868555dd4d16e6ce4fedc72c2d1454546707
Compiled by bessbd on Wed Oct 12 20:51:10 CEST 2016
From source with checksum 0d21b3ffdc55a07e1d08875872c00523

   Flume 是一个分布式、可靠、和高可用的海量日志采集、聚和和传输的系统。可以理解为一个Agent,分为 source、channel、sink 三部分,将 数据源 通过 管道 下沉到 目的地

Natcat案例

Natcat基于socket

先下载natcat软件:
[root@master ~]# yum install nc -y     -----yum迅雷下,intall安装的 -y表示一路yes

nc的基础用法:
服务器端侦听44444端口
[root@master ~]# nc -kl 44444          -----已经开始监听这个44444端口

客户端访问端口44444
[root@master ~]# nc master 44444
hello world

相当于服务器端可以直接跟客户端进行对话
简单案例:
# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

案例:
创建一个flume-conf文件夹,专门用来存放flume文件
[root@master ~]# mkdir ~/flume-conf

创建一个flume执行文件:
[root@master ~]# vi ~/flume-conf/nc-flume-logger.properties
[root@master ~]# cat ~/flume-conf/nc-flume-logger.properties 
# flume的本质就是agent,a1代表agent别名
#定义sources
a1.sources = r1
#定义sinks
a1.sinks = k1
#定义channels
a1.channels = c1

# 数据源的描述,配置数据源
a1.sources.r1.type = netcat
a1.sources.r1.bind = master
a1.sources.r1.port = 44444

# 下沉的描述,配置sinks
a1.sinks.k1.type = logger

# 管道的配置,表示管道是memory,内存
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# 绑定source和channel
a1.sources.r1.channels = c1
# 绑定sinks和channel
a1.sinks.k1.channel = c1

执行flume进行数据采集:
[root@master ~]# flume-ng agent -c /opt/apache-flume-1.7.0-bin/conf/ -n a1 -f ~/flume-conf/nc-flume-logger.properties -Dflume.root.logger=INFO,console

客户端:
[root@master ~]# nc master 44444
hello flume
OK
hello hadoop

关闭flume的agent,ctrl+c 进行关闭
posted @ 2022-06-27 15:39  anyiya  阅读(80)  评论(0编辑  收藏  举报