随笔档案「2016年3月」 - 蒋源德

MapReduce性能调优记录

摘要：MapReduce原理要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。 Map-Reduce运行原理图： Map Side1.从磁盘读取数据并分片默认每个block对应一个分片，一个map task2.进行map处理运行自定义的map业... 阅读全文

posted @ 2016-03-18 13:54 蒋源德阅读(760) 评论(0) 推荐(0)

MapReduce开发技巧

摘要：数据类型的选择自定义数据类型参考：Hadoop提交作业自定义排序和分组MapWritable/SortedMapWritableHadoop中可传输的Map集合，和Java中的Map用法差不多，但是可以用与mapper和reducer之间的数据传输Map输出不同类型的Value使用... 阅读全文

posted @ 2016-03-18 13:53 蒋源德阅读(382) 评论(0) 推荐(0)

大数据平台生产环境部署指南

摘要：总结一下在生产环境部署Hadoop+Spark+HBase+Hue等产品遇到的问题、提高效率的方法和相关的配置。集群规划假设现在生产环境的信息如下：服务器数量：6 操作系统：Centos7 Master节点数：2 Zookeeper节点数：3 Slave节点数：4 ... 阅读全文

posted @ 2016-03-18 13:44 蒋源德阅读(1851) 评论(0) 推荐(1)

大数据平台生产环境部署指南

摘要：大数据平台生产环境部署指南@(Hadoop)总结一下在生产环境部署Hadoop+Spark+HBase+Hue等产品遇到的问题、提高效率的方法和相关的配置。集群规划假设现在生产环境的信息如下：服务器数量：6 操作系统：Centos7 Master节点数：2 Zooke... 阅读全文

posted @ 2016-03-15 09:56 蒋源德阅读(4406) 评论(0) 推荐(0)

自定义分片策略解决大量小文件问题

摘要：自定义分片策略解决大量小文件问题@(Hadoop)默认的TextInputFormat应该都知道默认的TextInputFormat是一行行的读取文件内容，这对于一个或几个超大型的文件来说并没有什么问题，但是在实验读取大量小文件的时候，性能及其低下。实验过程分别有5个文件夹，每个文... 阅读全文

posted @ 2016-03-01 11:41 蒋源德阅读(429) 评论(0) 推荐(0)

蒋源德

03 2016 档案

公告