随笔分类 - 大数据开发环境搭建

必须了解的PySpark 的背后原理

摘要：文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实现，会运行在JVM中。然而，Spark 阅读全文

posted @ 2021-12-14 20:10 hgz_dm 阅读(977) 评论(0) 推荐(0) 编辑

linux系统中离线安装python3.7过程记录

摘要：最近公司新弄来一台linux redhat 4.4.7服务器，准备在上面离线安装python3.7,安装过程中出现一些问题，特此记录下来。首先在python官网上下载了 Python-3.7.3.tgz文件，放在/usr/local/python3.7路径下，然后解压到该路径下 tar -zxvf 阅读全文

posted @ 2019-08-15 10:29 hgz_dm 阅读(7068) 评论(0) 推荐(0) 编辑

spark-submit提交python脚本过程记录

摘要：最近刚学习spark，用spark-submit命令提交一个python脚本，一开始老报错，所以打算好好整理一下用spark-submit命令提交python脚本的过程。先看一下spark-submit的可选参数 1.spark-submit参数 --master MASTER_URL:设置集群的主阅读全文

posted @ 2019-08-15 10:26 hgz_dm 阅读(12559) 评论(1) 推荐(0) 编辑

记录一次读取hdfs文件时出现的问题java.net.ConnectException: Connection refused

摘要：公司的hadoop集群是之前的同事搭建的，我(小白一个)在spark shell中读取hdfs上的文件时，执行以下指令 >>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") >>> word.first() 报错：jav 阅读全文

posted @ 2019-08-15 10:22 hgz_dm 阅读(2399) 评论(0) 推荐(0) 编辑

linux服务器间配置ssh免密连接

摘要：先说一下，我用的centos7，root用户。ssh的原理就不说了，网上介绍的文章很多，直接开始说操作步骤吧： 1.首先确认有没有安装ssh，输入 rpm -qa |grep ssh查看这样就表示安装了ssh，没有的话就先安装ssh 2.关闭防火墙首先查看防火墙的状态，运行 systemctl 阅读全文

posted @ 2019-06-24 20:49 hgz_dm 阅读(1953) 评论(0) 推荐(0) 编辑

psycopg2模块安装问题

摘要：我的平台是win10(x64)、python3.7，打算通过psycopg2模块来操作Greenplum数据库，我通过pip install psycopg2 安装了psycopg2模块，也提示安装成功了，可是我在import psycopg2的时候提示我该模块未知、不存在，这让我很郁闷，于是我查找阅读全文

posted @ 2019-05-28 17:38 hgz_dm 阅读(2101) 评论(0) 推荐(0) 编辑

公告

昵称： hgz_dm
园龄： 6年1个月
粉丝： 10
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

hgz_dm

随笔分类 - 大数据开发环境搭建

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论