Spark新闻项目介绍及Linux集群准备
从今天开始博主后面的已连续博客都是关于一个新闻项目的博客:卡弗卡大数据用户行为(日志)分析项目,从该项目可以学习整个Spark集群的环境配置以及大数据分析技术,完成实时数据分析。
(一)项目介绍
本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。 不管是零基础的大数据技术爱好者,还是有基础的IT小白,都可以通过此课程快速的上升到一个新的高度。
1.适用人群
有hadoop理论基础的大学生,职场小白,大白
2.涉及技术
Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts
3.项目目标
1)能够独立完成大数据项目的架构设计,安装部署,架构继承与开发、用户可视化交互设计
2)能够独立完成实时在线数据分析
3)能独立完成离线数据分析
(二)需求分析与设计
1.案例需求分析
业务需求:
1)捕获用户浏览日志信息
2)实时分析前20名流量最高的新闻话题
3)实时统计当前线上已曝光的新闻话题
4)统计哪个时段用户浏览量最高
5)报表
2.系统架构图设计
3.系统数据流程设计
4.集群资源规划设计
(三)Linux环境准备
新建虚拟机的操作这里就不再介绍了,不懂的可以参考博主以前的博文,下面直接进入Linux基本环境配置。
1.通信配置
DEFROUTE=yes PEERDNS=yes PEERROUTES=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAME="System eth0" IPADDR=192.168.86.131 BCAST=192.168.86.255 GATEWAY=192.168.86.2 NETMASK=255.255.255.0 DNS1=192.168.86.2 DNS2=8.8.8.8
配置完后reboot重启
如上图表示通信配置成功。
2.配置网络映射
首先配置Linux环境下的网络配置
[root@bigdata-pro01 Desktop]# vim /etc/hosts
然后配置Windows下的网络映射(博文结束后记得补全三个节点的配置)
保存后我们就可以在Windows上通过XShell根据连接到虚拟机,然后进行操作了。
启动Xshell。新建一个连接如下:
然后我们就能连接上了。
3.关闭防火墙
[kfk@bigdata-pro01 ~]$ sudo servivce iptables status We trust you have received the usual lecture from the local System Administrator. It usually boils down to these three things: #1) Respect the privacy of others. #2) Think before you type. #3) With great power comes great responsibility. [sudo] password for kfk: kfk is not in the sudoers file. This incident will be reported. [kfk@bigdata-pro01 ~]$ su Password: [root@bigdata-pro01 kfk]# visudo //配置kfk用户sudo权限及免密码登陆
然后添加以下内容:
关闭防火墙:
[root@bigdata-pro01 kfk]# su kfk [kfk@bigdata-pro01 ~]$ sudo service iptables status //查看防火墙状态 Table: filter Chain INPUT (policy ACCEPT) num target prot opt source destination 1 ACCEPT all -- 0.0.0.0/0 0.0.0.0/0 state RELATED,ESTABLISHED 2 ACCEPT icmp -- 0.0.0.0/0 0.0.0.0/0 3 ACCEPT all -- 0.0.0.0/0 0.0.0.0/0 4 ACCEPT tcp -- 0.0.0.0/0 0.0.0.0/0 state NEW tcp dpt:22 5 REJECT all -- 0.0.0.0/0 0.0.0.0/0 reject-with icmp-host-prohibited Chain FORWARD (policy ACCEPT) num target prot opt source destination 1 REJECT all -- 0.0.0.0/0 0.0.0.0/0 reject-with icmp-host-prohibited Chain OUTPUT (policy ACCEPT) num target prot opt source destination [kfk@bigdata-pro01 ~]$ sudo service iptables stop //关闭防火墙 iptables: Setting chains to policy ACCEPT: filter [ OK ] iptables: Flushing firewall rules: [ OK ] iptables: Unloading modules: [ OK ] [kfk@bigdata-pro01 ~]$ sudo service iptables status iptables: Firewall is not running. [kfk@bigdata-pro01 ~]$ sudo chkconfig iptables off //永久禁用 [kfk@bigdata-pro01 ~]$ sudo vim /etc/sysc sysconfig/ sysctl.conf [kfk@bigdata-pro01 ~]$ sudo vim /etc/sysconfig/selinux //配置每次自启动后防火墙都为关闭状态
4.卸载自带的JDK
[kfk@bigdata-pro01 ~]$ sudo rpm -qa|grep java java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64 java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64 tzdata-java-2013g-1.el6.noarch [kfk@bigdata-pro01 ~]$ sudo rpm -e --nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64 java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64 tzdata-java-2013g-1.el6.noarch [kfk@bigdata-pro01 ~]$ sudo rpm -qa|grep java [kfk@bigdata-pro01 ~]$
5.克隆虚拟机并进行相关的配置
前面我们已经做好了Linux的系统常规设置,接下来需要克隆虚拟机并进行相关的配置。
1)kfk用户下创建我们将要使用的各个目录
#软件目录
mkdir /opt/softwares
#模块目录
mkdir /opt/modules
#工具目录
mkdir /opt/tools
#数据目录
mkdir /opt/datas
[kfk@bigdata-pro01 ~]$ cd / [kfk@bigdata-pro01 /]$ ls bin boot dev etc home lib lib64 lost+found media misc mnt net opt proc root sbin selinux srv sys tmp usr var [kfk@bigdata-pro01 /]$ sudo mkdir /opt/softwares [kfk@bigdata-pro01 /]$ cd /opt/ [kfk@bigdata-pro01 opt]$ ls rh softwares [kfk@bigdata-pro01 opt]$ sudo rm -rf ./rh [kfk@bigdata-pro01 opt]$ ls softwares [kfk@bigdata-pro01 opt]$ sudo mkdir momdules [kfk@bigdata-pro01 opt]$ ls momdules softwares [kfk@bigdata-pro01 opt]$ ll total 8 drwxr-xr-x 2 root root 4096 Oct 15 14:24 momdules drwxr-xr-x 2 root root 4096 Oct 15 14:21 softwares [kfk@bigdata-pro01 opt]$ sudo mkdir tools [kfk@bigdata-pro01 opt]$ sudo mkdir datas [kfk@bigdata-pro01 opt]$ ll total 16 drwxr-xr-x 2 root root 4096 Oct 15 14:25 datas drwxr-xr-x 2 root root 4096 Oct 15 14:24 momdules drwxr-xr-x 2 root root 4096 Oct 15 14:21 softwares drwxr-xr-x 2 root root 4096 Oct 15 14:25 tools [kfk@bigdata-pro01 opt]$ sudo chown -R kfk:kfk /opt/* //修改目录用户组为kfk [kfk@bigdata-pro01 opt]$ ll total 16 drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:25 datas drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:24 momdules drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:21 softwares drwxr-xr-x 2 kfk kfk 4096 Oct 15 14:25 tools
2)jdk安装
大数据平台运行环境依赖JVM,所以我们需要提前安装和配置好jdk。 前面我们已经安装了64位的centos系统,所以我们的jdk也需要安装64位的,与之相匹配
a)将jdk安装包通过工具上传到/opt/softwares目录下
b)解压jdk安装包
#解压命令
tar -zxf jdk-7u67-linux-x64.tar.gz /opt/modules/
#查看解压结果
ls
[kfk@bigdata-pro01 opt]$ cd softwares/ [kfk@bigdata-pro01 softwares]$ rz -bash: rz: command not found [kfk@bigdata-pro01 softwares]$ sudo yum -y install lrzsz
安装完成后用sudo rz命令上传JDK
解压安装:
[kfk@bigdata-pro01 softwares]$ ls jdk-8u60-linux-x64.tar.gz [kfk@bigdata-pro01 softwares]$ tar -zxvf jdk-8u60-linux-x64.tar.gz -C/opt/momdules/
c)配置Java 环境变量
[kfk@bigdata-pro01 momdules]$ vi /etc/profile(在末尾添加以下内容) export JAVA_HOME=/opt/modules/jdk1.8.0_60 export PATH=$PATH:$JAVA_HOME/bin
d)查看Java是否安装成功
[kfk@bigdata-pro01 momdules]$ source /etc/profile //使配置文件生效 [kfk@bigdata-pro01 momdules]$ java -version java version "1.8.0_60" Java(TM) SE Runtime Environment (build 1.8.0_60-b27) Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
3)克隆虚拟机
[kfk@bigdata-pro01 momdules]$ sudo halt //关掉服务器
在克隆虚拟机之前,需要关闭虚拟机,然后右键选中虚拟机——》选择管理——》选择克隆——》选择下一步——》选择下一步——》选择创建完整克隆,下一步——》选择克隆虚拟机位置(提前创建好),修改虚拟机名称为Hadoop-Linux-pro-2,然后选择完成即可。
具体过程可参加博文:虚拟机克隆及网络配置
然后使用同样的方式创建第三个虚拟机Hadoop-Linux-pro-3。
4)修改克隆虚拟机配置
克隆完虚拟机Hadoop-Linux-pro-2和Hadoop-Linux-pro-3之后,可以按照Hadoop-Linux-pro-1的方式配置好ip地址、hostname,以及ip地址与hostname之间的关系。
第二台机子IP修改为192.168.86.152,第三台机子IP修改为192.168.86.153(具体网络配置参考博文虚拟机克隆及网络配置)
更改主机名
Reboot重启之后发现hostname已经更改了。
在三台机器都加上域名映射
至此,该项目所需要三节点集群基础环境就全部搭建完了,下一次将介绍如何在此环境上布置Hadoop2.x分布式集群。
以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢!同时也欢迎转载,但必须在博文明显位置标注原文地址,解释权归博主所有!