黎明踏浪号 - 博客园

2022年8月20日

记Window 10 WSL 下运行hbase 本机模式的一个错误及解决： /bin/java: No such file or directory

摘要：运行环境及问题描述：系统：Window 10 WSL ( Linux Ubuntu）在window 环境里安装了JDK11 至目录：C:\Application\Java\jdk-11.0.16，并设置了JAVA_HOME 环境变量在Window环境下载hbase-2.4.4并解压到目录：C 阅读全文

posted @ 2022-08-20 17:36 黎明踏浪号阅读(286) 评论(0) 推荐(0)

2020年6月29日

spark读取文件时对字符编码的支持

摘要：在spark中常使用textFile读取文件，默认的是UTF-8编码，但在实际读取文件时，存在不同的文件编码，如果不是UTF-8编码的文件，便不能直接使用这个方法读文件。以下是2种读取不同编码文件的方法，下面以ANSI的中文简体编码为例，codepage是1252. 方法1：使用decode方法阅读全文

posted @ 2020-06-29 16:38 黎明踏浪号阅读(3185) 评论(0) 推荐(0)

2020年5月29日

SparkSQL 数据分页及Top N

摘要：在SparkSQL实践中，取出满足指定条件的数据并显示，如果因为数据太多，必须要有分页功能，一开始，想到的是select top N的方式，但测试过后，SparkSQL中并不支持这种语法，查了SparkSQL的帮助，spark支持类似mysql的limit语法，如下例所示，limit表示取出满足条件阅读全文

posted @ 2020-05-29 17:53 黎明踏浪号阅读(5045) 评论(0) 推荐(1)

2020年4月15日

linux下添加hadoop用户

摘要：在linux下安装hadoop后，通常会创建一个专门的hadoop用户以运行hadoop，具体步骤如下 1：创建huser用户sudo useradd -m huser 2：设置用户huser的登录密码 sudo passwd huser 3：给用户huser增加管理员权限 sudo adduser 阅读全文

posted @ 2020-04-15 19:24 黎明踏浪号阅读(2650) 评论(0) 推荐(0)

Window 10 WSL 下hadoop 伪分布式安装

摘要： Window 10 下的WSL子系统的安装可以参考之前的文章：window10 WSL子系统上设置redis开发环境有时候，为了在window系统上进行hadoop开发和测试，可以在WSL上安装hadoop的伪分布式系统因为子系统使用的是ubuntu 18.04，所以下面的安装以此为参考下面是阅读全文

posted @ 2020-04-15 17:15 黎明踏浪号阅读(1800) 评论(0) 推荐(0)

2020年4月10日

Window 10下spark shell使用sparksql 时的 “entry in command string: null ls -F C:\tmp\hive”问题解决

摘要：很多情况下，我们在window平台下用spark shell来进行交互式开发和测试，当在使用sparksql时，比如如下命令： val myDF = spark.sql("select * from mytable") 可能会遇到下面的问题：这是因为，spark在window平台读取hdfs时，需阅读全文

posted @ 2020-04-10 17:10 黎明踏浪号阅读(1241) 评论(1) 推荐(0)

spark数据怎样输出到Sql Server

摘要： spark数据处理完后，如果结果需要输出到sql database，可以使用spark sql dataframe并引入微软的数据库jdbc驱动输出数据，具体步骤如下： 1：引入微软的jdbc jar包在项目的pom文件加入下面的依赖： <dependency> <groupId>com.micr 阅读全文

posted @ 2020-04-10 10:53 黎明踏浪号阅读(1459) 评论(0) 推荐(0)

2020年4月1日

spark standalone集群模式下一个启动问题的解决

摘要： spark standalone集群配置好后，启动sbin/start-all.sh报错，其中一个worker没有正常启动起来，查看此worker上的spark\logs目录下的 log文件，有显示如下的错误 20/04/01 02:46:08 WARN Utils: Service 'sparkW 阅读全文

posted @ 2020-04-01 16:19 黎明踏浪号阅读(2113) 评论(0) 推荐(0)

2020年1月15日

Ubuntu 上redis 5.0的安装

摘要： Redis ，全称 REmote DIctionary Server ，是一个由 Salvatore Sanfilippo 编写的开源高性能 key-value 存储系统，本文详细介绍如何在 Ubuntu 18.04 server上手动安装最新版 Redis并配置redis集群方式一：apt安装阅读全文

posted @ 2020-01-15 11:03 黎明踏浪号阅读(1776) 评论(0) 推荐(0)

apache ambari 部署分布式系统

摘要：系统： win10 + Hyper-V 虚拟机设置 https://mswiki.morningstar.com/display/~kke/Setup+Hyper-V 虚拟机系统： ubuntu 18.04 server 安装gnome桌面 https://www.linuxidc.com/Linu 阅读全文

posted @ 2020-01-15 11:01 黎明踏浪号阅读(715) 评论(0) 推荐(0)

黎明踏浪

公告