摘要: 什么是倒排索引? 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒... 阅读全文
posted @ 2018-10-13 15:50 IT晓白 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 依赖式的场景我们可以设想一下MapReduce有2个子任务job1,job2构成,job2要在job1完成之后才执行。job1:用上篇写的合并小文件job2:使用单词计数这种关系就叫复杂数据依赖关系的组合时mapreduce。hadoop为这种组合关系提供了一种执行和... 阅读全文
posted @ 2018-10-13 13:41 IT晓白 阅读(363) 评论(1) 推荐(1) 编辑
摘要: hadoop为什么要合并小文件? 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果... 阅读全文
posted @ 2018-10-13 13:20 IT晓白 阅读(1751) 评论(0) 推荐(0) 编辑
摘要: 完整教程--idea使用git进行项目管理 阅读全文
posted @ 2018-10-13 11:38 IT晓白 阅读(97) 评论(0) 推荐(0) 编辑