郭小白

2018年11月6日

摘要：在前面： scala:2.12 hbase:2.0.2 开发工具：IDEA 准备工作： 1、将生产上的hbase中的conf/hbase-site.xml文件拷贝到idea中的src/resources目录下 2、将生产环境中hbase中的$HBASE_HOME/lib下的*.jar文件加载到IDE 阅读全文

posted @ 2018-11-06 15:35 郭小白阅读(3437) 评论(0) 推荐(0) 编辑

2018年10月26日

spark的二次排序

摘要：通过scala实现二次排序阅读全文

posted @ 2018-10-26 14:20 郭小白阅读(528) 评论(0) 推荐(0) 编辑

2018年10月19日

SparkSql处理嵌套json数据

摘要：一、数据准备：代码示例：二、数据准备代码示例：阅读全文

posted @ 2018-10-19 19:25 郭小白阅读(5162) 评论(1) 推荐(1) 编辑

2018年9月28日

mysql连接池的使用工具类代码示例

摘要： mysql连接池代码工具示例(scala)：阅读全文

posted @ 2018-09-28 09:15 郭小白阅读(1001) 评论(0) 推荐(0) 编辑

2018年9月19日

Sparksql的内置函数的使用以及案例

摘要：开发环境：spark：2.2.0 工具：IDEA OS:Windows 数据文件：本次所有示例的函数有： Start 注：在使用函数的时候最好要导入org.apache.spark.sql.functions._这个包 import ssc.implicits._（这个包在实际写sql的时候将其导阅读全文

posted @ 2018-09-19 22:57 郭小白阅读(18046) 评论(1) 推荐(0) 编辑

2018年9月18日

zookeeper在搭建的时候，解决后台启动为standalone模式问题

摘要：今天在搭建zookeeper，搭建完成之后，启动一直报错：上网查了好多资料：有几种解决方案： 1、在配置文件conf目录下，将zoo_sample.cfg删除，只留zoo.cfg（然而就我的情况而言，并没啥卵用，不删除也可以） 2、最后发现了问题，在配置zoo.cfg的时候把server配置成了s 阅读全文

posted @ 2018-09-18 10:14 郭小白阅读(3553) 评论(0) 推荐(0) 编辑

2018年9月5日

关于在使用sparksql写程序是报错以及解决方案：org.apache.spark.sql.AnalysisException: Duplicate column(s): "name" found, cannot save to file.

摘要：说明： spark --version : 2.2.0 我有两个json文件，分别是emp和dept： emp内容如下： dept内容如下：现在我需要通过sparksql将两个文件加载进来并做join，最后将结果保存到本地下面是操作步骤： 1、初始化配置 2、将两个json文件加载进来 3、分别阅读全文

posted @ 2018-09-05 01:51 郭小白阅读(7021) 评论(0) 推荐(0) 编辑

2018年9月4日

关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中

摘要：说明：spark版本：2.2.0 hive版本：1.2.1 需求：有本地csv格式的一个文件，格式为${当天日期}visit.txt,例如20180707visit.txt，现在需要将其通过spark-sql程序实现将该文件读取并以parquet的格式通过外部表的形式保存到hive中，最终要实现通阅读全文

posted @ 2018-09-04 00:39 郭小白阅读(8199) 评论(0) 推荐(0) 编辑

2018年9月2日

scala文件读取报错“java.nio.charset.MalformedInputException: Input length = 1”

摘要：今天写spark程序的时候遇到了一个问题就是，读取文件的时候报了一个错：“Exception in thread "main" java.nio.charset.MalformedInputException: Input length = 1” 读取文件的代码如下：一看这个这个错“nio”错误，阅读全文

posted @ 2018-09-02 13:17 郭小白阅读(12653) 评论(0) 推荐(0) 编辑

公告