随笔 - 331,  文章 - 92,  评论 - 54,  阅读 - 60万

 

大数据安全系列的其它文章

https://www.cnblogs.com/bainianminguo/p/12548076.html-----------安装kerberos

https://www.cnblogs.com/bainianminguo/p/12548334.html-----------hadoop的kerberos认证

https://www.cnblogs.com/bainianminguo/p/12548175.html-----------zookeeper的kerberos认证

https://www.cnblogs.com/bainianminguo/p/12584732.html-----------hive的kerberos认证

https://www.cnblogs.com/bainianminguo/p/12584880.html-----------es的search-guard认证

https://www.cnblogs.com/bainianminguo/p/12639821.html-----------flink的kerberos认证

https://www.cnblogs.com/bainianminguo/p/12639887.html-----------spark的kerberos认证

今天的博客介绍大数据安全系列之spark的kerberos配置

一、spark安装

1、解压和重命名安装目录

1
2
3
4
364  tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/local/
 365  cd /usr/local/
 366  ll
 367  mv spark-2.4.0-bin-hadoop2.7/ spark

  

2、设置spark的环境变量

1
2
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin

  

3、修改spark的env文件

1
[root@cluster2-host1 conf]# vim spark-env.sh

  

1
2
3
4
5
6
export JAVA_HOME=/usr/local/java   #Java环境变量
export SCALA_HOME=/usr/local/scala #SCALA环境变量
export SPARK_WORKING_MEMORY=1g  #每一个worker节点上可用的最大内存
export SPARK_MASTER_IP=cluster1-host1   #驱动器节点IP
export HADOOP_HOME=/usr/local/hadoop  #Hadoop路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop #Hadoop配置目录

  

4、修改spark的conf文件

1
2
3
[root@cluster2-host1 conf]# cp spark-defaults.conf.template spark-defaults.conf
[root@cluster2-host1 conf]# pwd
/usr/local/spark/conf

  

1
spark.yarn.jars=hdfs://cluster1-host1:9000/spark_jars/*

  

5、修改slaver文件

1
2
3
[root@cluster2-host1 conf]# cp slaves.template slaves
cluster2-host2
cluster2-host3

  

6、创建sparkhdfs上的jar包路径

 

1
2
3
4
5
6
7
[root@cluster2-host1 conf]# hadoop fs -mkdir /spark_jars
[root@cluster2-host1 conf]# hadoop dfs -ls /
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.
 
Found 1 items
drwxr-xr-x   - root supergroup          0 2020-03-02 04:30 /spark_jars

 

  

7、分发安装包到其它节点

 

8、启动spark

1
2
Cd /usr/local/spark/sbin
[root@cluster2-host1 sbin]# ./start-all.sh

  

检查进程

1
2
3
4
5
6
7
[root@cluster2-host1 sbin]# jps
25922 ResourceManager
31875 Master
6101 Jps
26152 NodeManager
22924 NameNode
23182 DataNode

  

1
2
3
4
5
6
[root@cluster2-host2 conf]# jps
22595 SecondaryNameNode
29043 Jps
22268 DataNode
24462 NodeManager
27662 Worker

  

1
2
3
4
5
6
[root@cluster2-host3 ~]# jps
25025 NodeManager
28404 Worker
12537 Jps
22910 DataNode
[root@cluster2-host3 ~]#

  

9、浏览器访问页面

1
http://10.87.18.34:8080/

  

二、配置spark的kerberos配置

spark的kerberos不需要配置,只需要保证hdfs的kerberos配置正确即可

保证使用hdfs的用户已经验证,且本地有缓存,或者指定keytab文件也可以

 

1
2
3
4
5
6
7
[root@cluster2-host1 bin]# klist
Ticket cache: FILE:/tmp/krb5cc_0
Default principal: hdfs/cluster2-host1@HADOOP.COM
 
Valid starting       Expires              Service principal
03/03/2020 08:06:49  03/04/2020 08:06:49  krbtgt/HADOOP.COM@HADOOP.COM
    renew until 03/10/2020 09:06:49

 

  

进行如下的验证,能访问hdfs的数据即可

./spark-shell

1
2
3
4
5
6
7
scala> var file = "/input/test.txt"
file: String = /input/test.txt
 
                                                       ^
 
scala> spark.read.textFile(file).flatMap(_.split(" ")).collect
res1: Array[String] = Array(adfaljal, fjalfjalf, falfja, lfajsa, 23fdjalfja, abc, dda, haoop, cluster, cluster)

  

 

 

posted on   bainianminguo  阅读(6400)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示