曲水修竹

2023年4月21日

摘要： hdfs认证报错1 hdfs报错Failed on local exception: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOK 阅读全文

posted @ 2023-04-21 16:41 曲水修竹阅读(1613) 评论(0) 推荐(0) 编辑

2021年8月30日

hive mapjoin总结

摘要： 1.map join无reduce操作，所以没有shuffle。这样可以减少大量的网络I/O。（如：大表文件数500、文件250M，小表20M。map join的网络I/O共50020M，Common join的网络I/O共500250M+20M），同时不需要进行map sort和shuffle s 阅读全文

posted @ 2021-08-30 16:53 曲水修竹阅读(290) 评论(0) 推荐(0) 编辑

2021年4月22日

Sqoop:SQLException in nextKeyValue

摘要：错误详情 Error: java.io.IOException: SQLException in nextKeyValue at org.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:275) at 阅读全文

posted @ 2021-04-22 21:46 曲水修竹阅读(1405) 评论(0) 推荐(0) 编辑

2021年3月17日

sqoop 导出MySQL到hdfs后顺序异常改变

摘要：最近发现了sqoop的一个bug，在使用sqoop 1.4 7导出MySQL8.0以上版本的mysql表，采用整表导出时，列的顺序会... 阅读全文

posted @ 2021-03-17 17:10 曲水修竹阅读(236) 评论(0) 推荐(0) 编辑

2021年2月8日

the result type of an implicit conversion must be more specific than Object

摘要： maven编译报错error: the result type of an implicit conversion must be ... 阅读全文

posted @ 2021-02-08 14:14 曲水修竹阅读(780) 评论(0) 推荐(0) 编辑

2020年12月31日

Hadoop的数据压缩算法应用场景

摘要： 1）gzip压缩优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；大部分linux系统都自带gzip命令，使用方便。缺点：不支持split。应用场景：当每个文件压缩之后在1... 阅读全文

posted @ 2020-12-31 23:12 曲水修竹阅读(42) 评论(0) 推荐(0) 编辑

Hive的TextFile、SequenceFile、RCfile 、ORCfile等压缩格式的区别

摘要： TextFile: 默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用，但使用Gzip这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。 SequenceFile: SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以<ke 阅读全文

posted @ 2020-12-31 23:09 曲水修竹阅读(1576) 评论(0) 推荐(0) 编辑

解决Hive表关联查询数据倾斜的问题

摘要： 1）过滤掉脏数据：如果大key是无意义的脏数据，直接过滤掉。本场景中大key无实际意义，为非常脏数据，直接过滤掉。 2）数据预处理：数据做一下预处理，尽量保证join的时候，同一个key对应的记录不要有太多。 3）增加reduce个数：如果数据中出现了多个大key，增加reduce个数，可以让这阅读全文

posted @ 2020-12-31 23:05 曲水修竹阅读(783) 评论(0) 推荐(0) 编辑

Kafka参数优化

摘要： 1）Broker参数配置（server.properties） 1、网络和io操作线程配置优化 # broker处理消息的最大线程数（默认为3） num.network.threads=cpu核数+1 # broker处理磁盘IO的线程数 num.io.threads=cpu核数*2 2、log数据阅读全文

posted @ 2020-12-31 22:58 曲水修竹阅读(1260) 评论(0) 推荐(0) 编辑

Java HashMap和Hashtable、TreeSet和HashSet区别

摘要： HashMap和Hashtable区别 1) 线程安全性不同 HashMap是线程不安全的，HashTable是线程安全的，其中的方法是Synchronize的，在多线程并发的情况下，可以直接使用Hashtable，但是使用HashMap时必须自己增加同步处理。 2) 是否提供contains方法阅读全文

posted @ 2020-12-31 22:54 曲水修竹阅读(144) 评论(0) 推荐(0) 编辑

公告