2020年7月30日

摘要: 要在Jackson中使用Scala模块,只需在ObjectMapper实例中注册它即可: val mapper = new ObjectMapper() mapper.registerModule(DefaultScalaModule) DefaultScalaModule是一个Scala对象,它支 阅读全文
posted @ 2020-07-30 13:39 八戒的悟空 阅读(1405) 评论(0) 推荐(0) 编辑

2020年7月29日

摘要: 在lua整合kafka消费数据的时候会经常碰见一些小坑,比如报错:send() failed (111: Connection refused) while resolving就是经常碰见的错误。在遇到这种错误信息时首先从以下三个方面考虑。 1.检查kafka和zookeeper的启动情况,查看需要 阅读全文
posted @ 2020-07-29 00:20 八戒的悟空 阅读(835) 评论(0) 推荐(0) 编辑

2020年7月2日

摘要: 方式一: SavaAsTable 用法: df.write.mode(SaveMode.Overwrite).insertInto(table) 方式二: InsertInto 用法: df.write.mode(SaveMode.Overwrite).saveAsTable(table) 两种方式 阅读全文
posted @ 2020-07-02 23:36 八戒的悟空 阅读(1471) 评论(0) 推荐(0) 编辑

2020年6月30日

摘要: 一、小文件概述 小文件通常指文件大小要比HDFS块大小还要小很多的文件(在hadoop1.x版本的时候可以通过dfs.blocksize来设置,默认块大小为64M;在hadoop2.x版本的时候,则需要通过dfs.block.size设置,且默认大小为128M) 如果存在大量小文件,则会对整个存储系 阅读全文
posted @ 2020-06-30 21:46 八戒的悟空 阅读(2743) 评论(0) 推荐(0) 编辑

2020年4月16日

摘要: 要想使用xshell工具直接拖拽上传文件需要安装lrzsz centos安装方式: yum -y install lrzsz -y表示自动确认,在yum安装中会有一些手动确认操作,在命令中加入此参数将自动确认 安装成功界面: debian系统安装方式: apt-get install lrzsz 安 阅读全文
posted @ 2020-04-16 18:26 八戒的悟空 阅读(911) 评论(0) 推荐(0) 编辑

2020年3月28日

摘要: 使用truncate仅可删除内部表数据,不可删除表结构 truncate table 表名 (truncate可删除所有的行,但是不能删除外部表) 使用shell命令删除外部表 hdfs -dfs -rm -r 外部表路径 使用 drop 可删除整个表 drop table 表名 阅读全文
posted @ 2020-03-28 18:32 八戒的悟空 阅读(30074) 评论(0) 推荐(0) 编辑
 
摘要: transform的作用 hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现HIVE中没有的功能而又不会写UDF的情况 具体实现 需求:将timetamp类型的数据转换成weekday (1)编写python脚本 vi /root/weekday.py #!/bin/py 阅读全文
posted @ 2020-03-28 00:22 八戒的悟空 阅读(745) 评论(0) 推荐(0) 编辑

2020年3月27日

摘要: 报错信息 HQL在查询语句中有中文时会有如下报错信息: 严重: org.apache.calcite.runtime.CalciteException: Failed to encode '数学' in character set 'ISO-8859-1' (这里中文为“数学”字符) 出现原因 出现 阅读全文
posted @ 2020-03-27 19:48 八戒的悟空 阅读(2538) 评论(0) 推荐(0) 编辑

2020年3月26日

摘要: 首先先简单介绍下hive: Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。 核心架构: Hive官网地址 http:// 阅读全文
posted @ 2020-03-26 00:18 八戒的悟空 阅读(7006) 评论(0) 推荐(0) 编辑

2020年3月21日

摘要: 说明hadoop正在运行job,出现runjar的原因就是因为在完成job的初始化,包括获取jobID,将jar包上传至hdfs等操作 换句话说Runjar就是:完成job的初始化,包括获取jobid,上传jar包到hdfs 阅读全文
posted @ 2020-03-21 11:00 八戒的悟空 阅读(5992) 评论(2) 推荐(0) 编辑