随笔分类 -  大数据开发环境搭建

摘要:文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark 阅读全文
posted @ 2021-12-14 20:10 hgz_dm 阅读(977) 评论(0) 推荐(0) 编辑
摘要:最近公司新弄来一台linux redhat 4.4.7服务器,准备在上面离线安装python3.7,安装过程中出现一些问题,特此记录下来。 首先在python官网上下载了 Python-3.7.3.tgz文件,放在/usr/local/python3.7路径下,然后解压到该路径下 tar -zxvf 阅读全文
posted @ 2019-08-15 10:29 hgz_dm 阅读(7068) 评论(0) 推荐(0) 编辑
摘要:最近刚学习spark,用spark-submit命令提交一个python脚本,一开始老报错,所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数 1.spark-submit参数 --master MASTER_URL:设置集群的主 阅读全文
posted @ 2019-08-15 10:26 hgz_dm 阅读(12559) 评论(1) 推荐(0) 编辑
摘要:公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") >>> word.first() 报错:jav 阅读全文
posted @ 2019-08-15 10:22 hgz_dm 阅读(2399) 评论(0) 推荐(0) 编辑
摘要:先说一下,我用的centos7,root用户。ssh的原理就不说了,网上介绍的文章很多,直接开始说操作步骤吧: 1.首先确认有没有安装ssh,输入 rpm -qa |grep ssh查看 这样就表示安装了ssh,没有的话就先安装ssh 2.关闭防火墙 首先查看防火墙的状态,运行 systemctl 阅读全文
posted @ 2019-06-24 20:49 hgz_dm 阅读(1953) 评论(0) 推荐(0) 编辑
摘要:我的平台是win10(x64)、python3.7,打算通过psycopg2模块来操作Greenplum数据库,我通过pip install psycopg2 安装了psycopg2模块,也提示安装成功了,可是我在import psycopg2的时候提示我该模块未知、不存在,这让我很郁闷,于是我查找 阅读全文
posted @ 2019-05-28 17:38 hgz_dm 阅读(2101) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示