随笔分类 - hadoop
摘要:处理小文件的时候,可以通过org.apache.hadoop.io.SequenceFile.Writer类将所有文件写出到一个seq文件中。 大致流程如下: 实现代码: 注意事项: 我原本的逻辑是放到map函数中,将所有文件通过Writer写到HDFS中,但是map在整个mr的执行中被调用的次数是
阅读全文
摘要:在真实环境中,处理日志的时候,会有很多小的碎文件,但是文件总量又是很大。普通的应用程序用来处理已经很麻烦了,或者说处理不了,这个时候需要对小文件进行一些特殊的处理——合并。 在这通过编写java应用程序实现文件的合并并上传到HDFS。整体的处理思路是,从本地加载琐碎的小文件并写到HDFS中。 这个方
阅读全文
摘要:zookeeper:hadoop112、hadoop113、hadoop114 namenode:hadoop110和hadoop111 datanode:hadoop112、hadoop113、hadoop114 journalnode:hadoop110、hadoop111、hadoop112
阅读全文
摘要:1、手工切换ha的环境的搭建(比hadoop1多出来journalnode的配置) namenode:hadoop110和hadoop111 datanode:hadoop112、hadoop113、hadoop114 journalnode:hadoop110、hadoop111、hadoop11
阅读全文