大数据 - 随笔分类 - Bill_H

windows环境下单机运行pyspark

摘要：首先在windows系统中安装pyspark，具体过程可以参考以下两个地址 https://mp.weixin.qq.com/s/Bt6qrE3sGUSCm_BaA33C6A https://edu.hellobi.com/course/282/play/lesson/6501 安装好之后，在cmd 阅读全文

posted @ 2023-09-23 00:42 Bill_H 阅读(391) 评论(0) 推荐(0)

设置PySpark的Python版本

摘要：本文介绍在单节点下如何设置pyspark所调用的python的版本。环境：已在centos7中安装了spark2.4.0和python3.6 1.修改spark安装目录下的conf/spark-env.sh文件，在末尾添加export PYSPARK_PYTHON=/opt/python36/py 阅读全文

posted @ 2020-09-09 20:48 Bill_H 阅读(4281) 评论(0) 推荐(0)

Hadoop分布式集群安装

摘要：hdfs+yarn: 依照《Hadoop大数据技术开发实战》（张伟洋）中第2章和第3章的步骤执行，即可在虚拟机中成功地搭建Hadoop分布式集群，本人采用centos7 + JDK1.8.0-251 + hadoop-2.8.5进行安装，亲测可行。设置固定IP部分可参考另一篇博文：https://w 阅读全文

posted @ 2020-06-17 02:26 Bill_H 阅读(75) 评论(0) 推荐(0)

Bill_H

随笔分类 - 大数据