CentOs7下Apache Griffin0.5.0的安装部署

一、Apache Griffin介绍

大数据模块是大数据平台中数据方案的一个功能组件，Griffin（以下简称Griffin）是一个开源的大数据数据解决质量模式，它支持批数据和流数据方式检测质量模式，可以从不同维度（不同标准执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等）收集数据资产，从而提高数据的准确度、可信度。

在格里芬的架构中，主要分为定义、测量和分析三个部分，如下图所示：

二、Apache Griffin的安装依赖

本文所使用到的Griffin的安装依赖以及版本如下所示：

·Centos7

·JDK-1.8.0

·Mysql-5.7.31

·Hadoop-2.6.5

·Spark-2.3.3

·Scala-2.11.8

·Node-v12.21.0

·Npm-6.14.11

·Apache Hive-2.3.8

·Apache Livy-0.5.0

·Elasticsearch-7.7.1

·Apache Zookeeper-3.5.5

·Apache Kafka-0.8.2

·Apache Maven-3.6.1

·Apache Griffin-0.5.0

其中Apache Zookeeper和Apache Kafka是流模式下才需要安装的。

三、VMware中三台虚拟机的配置信息

主机名	IP地址	内存	硬盘	CPU
Master	192.168.152.131	2G	80G	4
Slave1	192.168.152.132	2G	80G	4
Slave2	192.168.152.133	2G	80G	4

可以先创建好一台虚拟机，安装好JDK之后再克隆出其它两台。

具体的克隆过程可以参考本人的另一篇博客：https://www.cnblogs.com/zrs123/p/14980840.html

三台虚拟机创建好之后，要进行以下的操作：

关闭SELINUX以及防火墙；
开启SSH服务；
三台虚拟机可以互相ping通，并能ping通外网（例如下面）。
```
ping -c3 Slave1 

ping -c3 www.baidu.com
```
完成之后基本的实验平台就搭建完毕。

四、其它组件的安装

4.1MySQL数据库的安装

MySQL只需要在Master主机上安装，安装过程详见：https://www.cnblogs.com/zrs123/p/14326737.html

建议离线安装，或者在安装的时候选择自己想要的版本。

4.2Hadoop集群的搭建

参考本人的另一篇博客：https://www.cnblogs.com/zrs123/p/14335162.html

4.3Spark集群的搭建

安装spark之前需要安装好JDK和Scala。

参考本人的另一篇博客：https://www.cnblogs.com/zrs123/p/14366759.html

4.4NodeJS安装

打开官网 https://nodejs.org/en/download/

复制拿到链接，下载nodejs

wget https://nodejs.org/dist/v10.15.3/node-v10.15.3-linux-x64.tar.xz

解压

tar -xvf node-v10.15.3-linux-x64.tar.xz

删除压缩包

rm node-v10.15.3-linux-x64.tar.xz

配置环境变量

编辑

 vim /etc/profile

# 新增环境变量

export NODE_HOME=/node-v10.15.3-linux-x64
export PATH=$PATH:$NODE_HOME/bin 
export NODE_PATH=$NODE_HOME/lib/node_modules

保存

:wq

生效环境变量

source /etc/profile

检查是否安装成功

node -v

npm -v

有版本号出现则表示成功

4.5Hive的安装

1、压缩包下载：http://www.apache.org/dyn/closer.cgi/hive/

2、上传压缩包到Master主机的相应目录下，并解压;

3、配置环境变量

export HIVE_HOME=/opt/hive/apache-hive-2.3.8-bin

export PATH=$HIVE_HOME/bin:$PATH

生效环境变量

source /etc/profile

4、配置hive元数据库

配置hive元数据库要求用户电脑能够使用mysql。

1）在mysql中创建hive用户，并给予hive用户权限。

create user 'hive' identified by '12345';

grant all privileges on *.* to 'hive'@'%' with grant option;

grant all privileges on *.* to hive@Master identified by '12345';

flush privileges;

2）建立hive专用的元数据库

create database hive;

5、修改hive中的配置文件

5.1修改hive-site.xml文件

将hive-default.xml.template文件复制一份并改名为hive-site.xml

在hive-site.xml文件中有如下配置

执行hadoop命令"hadoop dfs -mkdir -p /user/hive/warehouse"新建/user/hive/warehouse目录

并给新建的/user/hive/warehouse目录赋予读写权限"hdfs dfs -chmod 777 /user/hive/warehouse"

查看修改后的权限"hdfs dfs -ls /user/hive"

执行hadoop命令"hadoop dfs -mkdir -p /tmp/hive"新建/tmp/hive目录

给/tmp/hive目录赋予读写权限"hdfs dfs -chmod 777 /tmp/hive"

查看创建并授权的目录"hdfs dfs -ls /tmp"

5.2修改hive-site.xml中的临时目录

将文件中的所有${system:java.io.tmpdir}替换成/usr/local/hive/tmp

首先在命令行中输入"vi hive-site.xml"，然后在命令行中输入”:%s#${system:java.io.tmpdir}#/usr/local/hive/apache-hive-2.3.3-bin/tmp#g“替换所有的临时目录

若没有临时目录，需要先创建，并赋予其读写权限

将文件中所有的${system:user.name}替换成root

6、把mysql的驱动包上传至hive的lib目录下

7、修改hive-site.xml数据库相关配置

修改javax.jdo.option.connectionURL，将name对应的value修改为mysql的地址

修改javax.jdo.option.ConnectionDriverName，将name对应的value修改为mysql驱动类路径

修改javax.jdo.option.ConnectionUserName，将对应的value修改为MySQL数据库登录名

修改javax.jdo.option.ConnectionPassword，将对应的value修改为MySQL数据库的登录密码

修改hive.metastore.schema.verification，将对应的value修改为false

8、在conf目录下，拷贝hive-env.sh.template存为hive-env.sh

修改hive-env.sh文件

9、启动和测试

1）hive元数据库初始化

schematool -dbType mysql –initSchema

2）出现下图所示情况表明hive安装成功：

参考自博客：https://blog.csdn.net/qq_28854219/article/details/81185610

4.6Livy的安装

1、下载Livy(可以自己下载源代码进行编译)
http://livy.incubator.apache.org/download/
源代码在git 上能够找到apache 版本和cloudera 两个版本
https://github.com/cloudera/livy 有比较详细的说明文档。

2、解压下载好的压缩包到相应的目录下；

3、配置环境变量

vim /etc/profile

export LIVY_HOME=/usr/local/livy/livy-0.5.0-incubating-bin

export PATH=$PATH:$LIVY_HOME/bin

　执行如下命令生效环境变量

source /etc/profile

4、配置livy-env.sh

export JAVA_HOME=/usr/lib/jvm/java

export HADOOP_HOME=/opt/hadoop/hadoop-2.6.5

export SPARK_HOME=/opt/spark/spark-2.3.3-bin-hadoop2.6

export SPARK_CONF_DIR=$SPARK_HOME/conf

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export LIVY_LOG_DIR=/usr/local/livy/livy-0.5.0-incubating-bin/logs

export LIVY_SERVER_JAVA_OPTS="-Xmx2g"

/usr/local/livy/livy-0.5.0-incubating-bin/logs需要自己创建。

5、配置livy.conf

livy.environment = production

livy.server.host = 192.168.152.131

livy.server.port = 8998

livy.spark.master = yarn

livy.spark.deploy-mode = cluster

livy.server.session.timeout = 3600000

livy.impersonation.enabled = true

livy.server.recovery.mode = recovery

livy.server.recovery.state-store = filesystem

livy.server.recovery.state-store.url =/usr/local/livy/livy-0.5.0-incubating-bin/tmp

livy.spark.deployMode = cluster

livy.repl.enable-hive-context = true

6、启动livy

/usr/local/livy/livy-0.5.0-incubating-bin/livy-server start

4.7Elasticsearch集群搭建

1、压缩包下载地址：https://elasticsearch.cn/download/

2、创建普通用户es，因为root用户不能启动elasticsearch集群，并修改权限；

3、将压缩包上传至Master主机相应目录下，并解压；

4、配置环境变量

vim /etc/profile

export ES_HOME=/usr/local/elasticsearch/elasticsearch-7.7.1
export PATH=$PATH:$ES_HOME/bin

　执行如下命令生效环境变量

source /etc/profile

5、配置elasticsearch.yml

默认位置位于$ES_HOME/config/elasticsearch.yml

cluster.name: my-application
node.name: node-1
path.data: /usr/local/elasticsearch/elasticsearch-7.7.1/data #需要自己创建
path.logs: /usr/local/elasticsearch/elasticsearch-7.7.1/logs #需要自己创建
network.host: 192.168.152.131
http.port: 9200
discovery.seed_hosts:["192.168.152.131", "192.168.152.132","192.168.152.133"]
cluster.initial_master_nodes: ["node-1"]
http.cors.enabled: true
http.cors.allow-origin: "*"

6、/etc/security/limits.conf文件配置

添加如下内容：
* soft nofile 65536 
* hard nofile 65536

7、sysctl.conf文件配置

在命令行中执行如下命令：

echo “vm.max_map_count=262144” >> /etc/sysctl.conf

8、将安装目录以及环境变量的配置同步至Slave1和Slave2

scp -r ./elasticsearch/ root@Slave1:$PWD

scp -r ./elasticsearch/ root@Slave2:$PWD

同步完成后，分别更改Slave1和Slave2的elasticsearch.yml文件，将node.name和network.host修改成本节点的。

9、启动集群

切换至es用户，分别在三台机器的elasticsearch安装目录的bin目录下执行如下命令

bin/elasticsearch -d

启动成功后，可在浏览器上输入相应的IP和端口号得到上图结果。

4.8Griffin的配置部署

1、Apache Griffin下载地址：https://griffin.apache.org/

上传压缩包到Master主机的相应目录下，并配置环境变量

vim /etc/profile

export GRIFFIN_HOME=/opt/griffin/griffin-0.5.0

export PATH=$PATH:$GRIFFIN_HOME/bin

　　执行如下命令生效环境变量

source /etc/profile

2、在mysql中创建griffin用户，更改相应的用户名和密码；

如下的命令适用于MySQL5.7，如果安装的是最新的MySQL8.0，则不适用。

create user 'griffin' identified by '12345';
grant all privileges on *.* to 'griffin'@'%' with grant option;
grant all privileges on *.* to griffin@Master identified by '12345';
flush privileges;

3、在mysql中创建名为quartz的数据库。由于Griffin 使用了 Quartz 调度器调度任务,需要在mysql中创建 quartz数据库。创建结束后，需要执行指令:mysql -u griffin -p <password> quartz < Init_quartz_mysql_innodb.sql来初始化信息；

4、在Hadoop服务器上创建/home/spark_conf目录，并将Hive的配置文件hive-site.xml上传到该目录下：

hadoop fs -mkdir /home/spark_conf

hadoop fs -put $HIVE_HOME/conf/hive-site.xml /home/spark_conf

5、更新livy/conf中的livy.conf文件，在livy.conf文件的末尾追加下列内容，随后启动livy：

livy.spark.deployMode = cluster

livy.repl.enable-hive-context = true

6、创建ES索引

curl -k -H "Content-Type: application/json" -X PUT http://cdh2:9200/griffin?include_type_name=true \

 -d '{

    "aliases": {},

    "mappings": {

        "accuracy": {

            "properties": {

                "name": {

                    "fields": {

                        "keyword": {

                            "ignore_above": 256,

                            "type": "keyword"

                        }

                    },

                    "type": "text"

                },

                "tmst": {

                    "type": "date"

                }

            }

        }

},

"settings": {

"index": {

"number_of_replicas": "2",

"number_of_shards": "5"

}

 }

}'

7、到/opt/griffin/griffin-0.5.0/service/src/main/resources/目录下修改配置文件

1）application.properties

只展示需要修改的内容：

spring.datasource.url=jdbc:mysql://Master:3306/quartz?autoReconnect=true&useSSL=false

spring.datasource.username=griffin

spring.datasource.password=12345

spring.datasource.driver-class-name=com.mysql.jdbc.Driver

# Hive metastore

hive.metastore.uris=thrift://Master:9083

hive.metastore.dbname=hive

# Kafka schema registry

kafka.schema.registry.url=http://Master:8081

# hdfs default name

fs.defaultFS=hdfs://Master:9000

# elasticsearch

elasticsearch.host=Master

elasticsearch.port=9200

elasticsearch.scheme=http

# elasticsearch.user = user

# elasticsearch.password = password

# livy

livy.uri=http://Master:8998/batches

livy.need.queue=false

livy.task.max.concurrent.count=20

livy.task.submit.interval.second=3

livy.task.appId.retry.count=3

# yarn url

yarn.uri=http://Master:8088

2）quartz.properties

需要修改一些内容：

org.quartz.jobStore.driverDelegateClass=org.quartz.impl.jdbcjobstore.StdJDBCDelegate

3）env_batch.json

“api”: “http://Master:9200/griffin/accuracy”

8、然后进入到/griffin-0.5.0/service/目录，对pom.xml文件进行修改。编辑 service/pom.xml 文件第113行，移除 MySQL JDBC 依赖注释。否则编译griffin时会报错；

9、修改./service/pom.xml和./ui/pom.xml文件中相关组件的版本；

10、启动hive源数据服务。进入到hive的bin目录，执行hive --service metastore &，以启动hive源数据服务；

11、进入到griffin-0.5.0目录中，使用mvn -Dmaven.test.skip=true clean install指令对griffin进行编译打包；

12、编译打包结束后，能在griffin目录下的service和measure目录中出现target目录，在target目录里分别看到service-0.5.0.jar和measure-0.5.0.jar两个包。然后需要将measure-0.5.0.jar这个包改名为griffin-measure.jar（必须更改），然后使用指令: hadoop fs -put griffin-measure.jar /griffin/将griffin-measure.jar上传到hadoop的griffin目录中；

# 重命名measure、service，重命名的jar要和上面的配置文件application.properties 里的name一致
mv measure/target/measure-0.5.0.jar $GRIFFIN_HOME/griffin-measure.jar
mv service/target/service-0.5.0.jar $GRIFFIN_HOME/griffin-service.jar

# 将measure上传到HDFS
hadoop fs -put $GRIFFIN_HOME/griffin-measure.jar /griffin/

#griffin-service.jar 放入Griffin_home

13、启动Griffin后台管理：

#启动Griffin后台管理
nohup java -jar $GRIFFIN_HOME/griffin-service.jar>$GRIFFIN_HOME/service.out 2>&1 &

#启动之后我们可以查看启动日志，如果日志中没有错误，则启动成功 
tail -f $GRIFFIN_HOME/service.out

访问192.168.152.131:8082（自己配置的端口）验证是否配置成功。

图中的用户名和密码属于上文中在mysql中创建的griffin用户的用户名和密码;

或者账号/密码使用test/test登录。

2021-07-29 12:48:10

posted @ 2021-07-29 12:48 ruishu_0726 阅读(767) 评论(0) 编辑收藏举报

刷新页面返回顶部

努力努力再努力_z

CentOs7下Apache Griffin0.5.0的安装部署

一、Apache Griffin介绍

二、Apache Griffin的安装依赖

三、VMware中三台虚拟机的配置信息

四、其它组件的安装

4.1MySQL数据库的安装

4.2Hadoop集群的搭建

4.3Spark集群的搭建

4.4NodeJS安装

4.5Hive的安装

4.6Livy的安装

4.7Elasticsearch集群搭建

4.8Griffin的配置部署

公告