随笔分类 -  大数据

摘要:首先在windows系统中安装pyspark,具体过程可以参考以下两个地址 https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6A https://edu.hellobi.com/course/282/play/lesson/6501 安装好之后,在cmd 阅读全文
posted @ 2023-09-23 00:42 Bill_H 阅读(284) 评论(0) 推荐(0) 编辑
摘要:本文介绍在单节点下如何设置pyspark所调用的python的版本。 环境:已在centos7中安装了spark2.4.0和python3.6 1.修改spark安装目录下的conf/spark-env.sh文件,在末尾添加export PYSPARK_PYTHON=/opt/python36/py 阅读全文
posted @ 2020-09-09 20:48 Bill_H 阅读(4199) 评论(0) 推荐(0) 编辑
摘要:hdfs+yarn: 依照《Hadoop大数据技术开发实战》(张伟洋)中第2章和第3章的步骤执行,即可在虚拟机中成功地搭建Hadoop分布式集群,本人采用centos7 + JDK1.8.0-251 + hadoop-2.8.5进行安装,亲测可行。设置固定IP部分可参考另一篇博文:https://w 阅读全文
posted @ 2020-06-17 02:26 Bill_H 阅读(65) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示