八戒的悟空 - 博客园

scala语言使用Jackson处理json数据

摘要：要在Jackson中使用Scala模块，只需在ObjectMapper实例中注册它即可： val mapper = new ObjectMapper（） mapper.registerModule（DefaultScalaModule） DefaultScalaModule是一个Scala对象，它支阅读全文

posted @ 2020-07-30 13:39 八戒的悟空阅读(1439) 评论(0) 推荐(0)

lua整合kafka消费数据时报错Connection refused while resolving 或者could not be resolved

摘要：在lua整合kafka消费数据的时候会经常碰见一些小坑，比如报错：send() failed (111: Connection refused) while resolving就是经常碰见的错误。在遇到这种错误信息时首先从以下三个方面考虑。 1.检查kafka和zookeeper的启动情况，查看需要阅读全文

posted @ 2020-07-29 00:20 八戒的悟空阅读(863) 评论(0) 推荐(0)

Spark落地到hive表中的两种方式及其区别

摘要：方式一： SavaAsTable 用法： df.write.mode(SaveMode.Overwrite).insertInto(table) 方式二： InsertInto 用法： df.write.mode(SaveMode.Overwrite).saveAsTable(table) 两种方式阅读全文

posted @ 2020-07-02 23:36 八戒的悟空阅读(1544) 评论(0) 推荐(0)

HDFS存在大量小文件问题的解决方案

摘要：一、小文件概述小文件通常指文件大小要比HDFS块大小还要小很多的文件（在hadoop1.x版本的时候可以通过dfs.blocksize来设置，默认块大小为64M；在hadoop2.x版本的时候，则需要通过dfs.block.size设置，且默认大小为128M）如果存在大量小文件，则会对整个存储系阅读全文

posted @ 2020-06-30 21:46 八戒的悟空阅读(2802) 评论(0) 推荐(0)

xshell使用zmodem从windows拖拽上传文件到linux系统（rz -E）

摘要：要想使用xshell工具直接拖拽上传文件需要安装lrzsz centos安装方式： yum -y install lrzsz -y表示自动确认，在yum安装中会有一些手动确认操作，在命令中加入此参数将自动确认安装成功界面： debian系统安装方式： apt-get install lrzsz 安阅读全文

posted @ 2020-04-16 18:26 八戒的悟空阅读(988) 评论(0) 推荐(0)

Hive中三种方式删除表数据内容

摘要：使用truncate仅可删除内部表数据，不可删除表结构 truncate table 表名（truncate可删除所有的行，但是不能删除外部表）使用shell命令删除外部表 hdfs -dfs -rm -r 外部表路径使用 drop 可删除整个表 drop table 表名阅读全文

posted @ 2020-03-28 18:32 八戒的悟空阅读(30225) 评论(0) 推荐(0)

Hive中的transform关键字的使用

摘要： transform的作用 hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能，适合实现HIVE中没有的功能而又不会写UDF的情况具体实现需求：将timetamp类型的数据转换成weekday （1）编写python脚本 vi /root/weekday.py #!/bin/py 阅读全文

posted @ 2020-03-28 00:22 八戒的悟空阅读(802) 评论(0) 推荐(0)

hive查询时出现：严重: org.apache.calcite.runtime.CalciteException: Failed to encode '数学' in character set 'ISO-8859-1'

摘要：报错信息 HQL在查询语句中有中文时会有如下报错信息：严重: org.apache.calcite.runtime.CalciteException: Failed to encode '数学' in character set 'ISO-8859-1' （这里中文为“数学”字符）出现原因出现阅读全文

posted @ 2020-03-27 19:48 八戒的悟空阅读(2745) 评论(0) 推荐(0)

Hive的安装部署全过程详细版

摘要：首先先简单介绍下hive： Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射成一张数据表，并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。核心架构： Hive官网地址 http:// 阅读全文

posted @ 2020-03-26 00:18 八戒的悟空阅读(7191) 评论(0) 推荐(0)

启动hadoop，jps查看进程发现有一个或多个Runjar是怎么回事？

摘要：说明hadoop正在运行job，出现runjar的原因就是因为在完成job的初始化，包括获取jobID，将jar包上传至hdfs等操作换句话说Runjar就是：完成job的初始化，包括获取jobid，上传jar包到hdfs 阅读全文

posted @ 2020-03-21 11:00 八戒的悟空阅读(6199) 评论(2) 推荐(0)

导航

2020年7月30日

2020年7月29日

2020年7月2日

2020年6月30日

2020年4月16日

2020年3月28日

2020年3月27日

2020年3月26日

2020年3月21日