jmbkeyes

Windows通过SSH直连代码仓库gitee,aliyun,github

摘要： 1. 假设用户目录为c:/users/a 2. 将公钥、私钥保存置c:/users/a/.ssh 3. 将公钥里的内容保存至相应代码仓库的sshkeys 4. 在c:/users/a/.ssh添加文件config, 内容如下： Host code.aliyun.com HostName code.a 阅读全文

posted @ 2021-02-23 10:39 jmbkeyes 阅读(255) 评论(0) 推荐(0) 编辑

Sqoop实践

摘要：将MySQL表导入hdfs /usr/local/sqoop/bin/sqoop import -Dmapreduce.job.user.classpath.first=true \ 【同一个class同时出现在用户jar包和hadoop jar包时，true表示优先使用用户jar里的class】阅读全文

posted @ 2020-12-04 22:41 jmbkeyes 阅读(139) 评论(0) 推荐(0) 编辑

spark mr on yarn查看日志

摘要： 1. 根据前文Hadoop配置JobHistory之后，接着执行命令 cp /usr/local/spark/conf/spark-defaults.conf.template /usr/local/spark/conf/spark-defaults.conf 2. 修改spark-defaults 阅读全文

posted @ 2020-11-30 19:05 jmbkeyes 阅读(208) 评论(0) 推荐(0) 编辑

Hadoop配置JobHistory

摘要： 1.修改/usr/local/hadoop/etc/hadoop/yarn-site.xml，添加如下代码 <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 配置日志服务器阅读全文

posted @ 2020-11-30 18:56 jmbkeyes 阅读(325) 评论(0) 推荐(0) 编辑

Idea开发Spark应用及远程运行及调试

摘要：本地开发执行Spark应用 1.Windows安装spark，设置环境变量SPARK_HOME=D:\spark-3.0.1，并在环境变量PATH加上%SPARK_HOME%\bin;%SPARK_HOME\sbin%; 2.Idea新建gradle项目spark，在build.gradle里添加阅读全文

posted @ 2020-11-20 23:53 jmbkeyes 阅读(1607) 评论(0) 推荐(0) 编辑

Spark on yarn

摘要： 1.配置安装Hadoop：需要安装HDFS模块和YARN模块,可以参考前文https://www.cnblogs.com/jmbkeyes/p/13898676.html 安装Spark：不需要启动Spark集群，在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_ 阅读全文

posted @ 2020-11-20 22:47 jmbkeyes 阅读(102) 评论(0) 推荐(0) 编辑

Spark Standalone集群安装

摘要：前提条件，以下使用的机器都可以互相ssh免密登录 1. 下载spark, https://archive.apache.org/dist/spark,本文下载3.0.1(spark-3.0.1-bin-without-hadoop.tgz) 2. 解压文件到/usr/local/spark 3. 复阅读全文

posted @ 2020-11-19 22:35 jmbkeyes 阅读(159) 评论(0) 推荐(0) 编辑

Yarn下Mapreduce的内存参数理解&xml参数配置

摘要： Container是什么？ Container就是一个yarn的java进程，在Mapreduce中的AM，MapTask，ReduceTask都作为Container在Yarn的框架上执行，你可以在RM的网页上【8088端口】看到Container的状态基础 Yarn的ResourceMange 阅读全文

posted @ 2020-11-01 22:16 jmbkeyes 阅读(327) 评论(0) 推荐(0) 编辑

Idea访问HDFS及MapReduce示例

摘要：自上篇搭建好高可用hadoop集群后，我们就可以通过程序访问hdfs及MR示例。 1. 访问HDFS Idea创建Gradle项目，然后再build.gradle添加依赖 dependencies { compile group: 'org.apache.hadoop', name: 'hadoop 阅读全文

posted @ 2020-10-30 23:56 jmbkeyes 阅读(514) 评论(0) 推荐(0) 编辑

Hadoop3.1.4高可用环境搭建

摘要：规划部署节点 HDFS高可用至少有两个NameNode（NN），副本存三份有三个DataNode（DN）。Yarn高可用至少有两个Resource Manager（RM），计算向存储移动需要在每个DataNode上部署NodeManager（NM）。Zookeeper（ZK）三节点选主。Journ 阅读全文

posted @ 2020-10-29 19:14 jmbkeyes 阅读(1734) 评论(0) 推荐(0) 编辑