摘要:
运行环境及问题描述: 系统:Window 10 WSL ( Linux Ubuntu) 在window 环境里安装了JDK11 至目录:C:\Application\Java\jdk-11.0.16, 并设置了JAVA_HOME 环境变量 在Window环境下载hbase-2.4.4并解压到目录:C 阅读全文
摘要:
在spark中常使用textFile读取文件,默认的是UTF-8编码,但在实际读取文件时,存在不同的文件编码,如果不是UTF-8编码的文件,便不能直接使用这个方法读文件。 以下是2种读取不同编码文件的方法,下面以ANSI的中文简体编码为例,codepage是1252. 方法1:使用decode方法 阅读全文
摘要:
在SparkSQL实践中,取出满足指定条件的数据并显示,如果因为数据太多,必须要有分页功能,一开始,想到的是select top N的方式,但测试过后,SparkSQL中并不支持这种语法,查了SparkSQL的帮助,spark支持类似mysql的limit语法,如下例所示,limit表示取出满足条件 阅读全文
摘要:
在linux下安装hadoop后,通常会创建一个专门的hadoop用户以运行hadoop,具体步骤如下 1:创建huser用户sudo useradd -m huser 2:设置用户huser的登录密码 sudo passwd huser 3:给用户huser增加管理员权限 sudo adduser 阅读全文
摘要:
Window 10 下的WSL子系统的安装可以参考之前的文章:window10 WSL子系统上设置redis开发环境 有时候,为了在window系统上进行hadoop开发和测试,可以在WSL上安装hadoop的伪分布式系统 因为子系统使用的是ubuntu 18.04,所以下面的安装以此为参考 下面是 阅读全文
摘要:
很多情况下,我们在window平台下用spark shell来进行交互式开发和测试,当在使用sparksql时,比如如下命令: val myDF = spark.sql("select * from mytable") 可能会遇到下面的问题: 这是因为,spark在window平台读取hdfs时,需 阅读全文
摘要:
spark数据处理完后,如果结果需要输出到sql database,可以使用spark sql dataframe并引入微软的数据库jdbc驱动输出数据,具体步骤如下: 1:引入微软的jdbc jar包 在项目的pom文件加入下面的依赖: <dependency> <groupId>com.micr 阅读全文
摘要:
spark standalone集群配置好后,启动sbin/start-all.sh报错,其中一个worker没有正常启动起来,查看此worker上的spark\logs目录下的 log文件,有显示如下的错误 20/04/01 02:46:08 WARN Utils: Service 'sparkW 阅读全文
摘要:
Redis ,全称 REmote DIctionary Server ,是一个由 Salvatore Sanfilippo 编写的开源高性能 key-value 存储系统,本文详细介绍如何在 Ubuntu 18.04 server上手动安装最新版 Redis并配置redis集群 方式一 :apt安装 阅读全文
摘要:
系统: win10 + Hyper-V 虚拟机设置 https://mswiki.morningstar.com/display/~kke/Setup+Hyper-V 虚拟机系统: ubuntu 18.04 server 安装gnome桌面 https://www.linuxidc.com/Linu 阅读全文