摘要:
hdfs认证报错1 hdfs报错Failed on local exception: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOK 阅读全文
摘要:
1.map join无reduce操作,所以没有shuffle。这样可以减少大量的网络I/O。(如:大表文件数500、文件250M,小表20M。map join的网络I/O共50020M,Common join的网络I/O共500250M+20M),同时不需要进行map sort和shuffle s 阅读全文
摘要:
错误详情 Error: java.io.IOException: SQLException in nextKeyValue at org.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:275) at 阅读全文
摘要:
最近发现了sqoop的一个bug,在使用sqoop 1.4 7导出MySQL8.0以上版本的mysql表,采用整表导出时,列的顺序会... 阅读全文
摘要:
maven编译报错error: the result type of an implicit conversion must be ... 阅读全文
摘要:
1)gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持split。 应用场景:当每个文件压缩之后在1... 阅读全文
摘要:
TextFile: 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用,但使用Gzip这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。 SequenceFile: SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<ke 阅读全文
摘要:
1) 过滤掉脏数据:如果大key是无意义的脏数据,直接过滤掉。本场景中大key无实际意义,为非常脏数据,直接过滤掉。 2)数据预处理:数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。 3) 增加reduce个数:如果数据中出现了多个大key,增加reduce个数,可以让这 阅读全文
摘要:
1)Broker参数配置(server.properties) 1、网络和io操作线程配置优化 # broker处理消息的最大线程数(默认为3) num.network.threads=cpu核数+1 # broker处理磁盘IO的线程数 num.io.threads=cpu核数*2 2、log数据 阅读全文
摘要:
HashMap和Hashtable区别 1) 线程安全性不同 HashMap是线程不安全的,HashTable是线程安全的,其中的方法是Synchronize的,在多线程并发的情况下,可以直接使用Hashtable,但是使用HashMap时必须自己增加同步处理。 2) 是否提供contains方法 阅读全文