大数据学习笔记01
大数据学习笔记
1.环境安装
安装vmware,需要密钥,安装之后在网络配置中可以找到vm1 和vm8两个网络,否则安装不成功
安装centos,官网下载比较慢,可以到清华镜像下载
安装finalshell或者xshell,通过远程ssh连接到linux,需要保证
- vmware中虚拟机配置正确
- win10系统中vm8网络配置ipv4正确
- 任务管理器中五个vm服务都运行,不行则打开服务,设置为自动
2.大数据流式计算
2.1什么是大数据流式计算
例子:自来水厂处理自来水
特点:实时性(源源不断)
2.2大数据离线计算与流式计算的区别
离线计算 | 流式计算 | |
---|---|---|
代表技术 | MapReduce | Storm、Spark Streaming、Flink |
数据采集 | sqoop | Flume |
2.3Apache Storm 的体系结构
2.4实战:zookeeper
准备环境:
1.安装Linux Redhat7.4 64位
2.JDK 1.8 64位
3.配置密码登录
4.主机名
5.关闭防火墙
- 相当于是一个数据库
- 搭建一个单节点zk
- 安装步骤
- tar -zxvf zookeeper-3.4.10.tar.gz -C ~/Training/
- 设置环境变量 vi
2.5实战:搭建Apache Storm
2.6