FlyingWarrior

摘要：转自局部敏感哈希(Locality-Sensitive Hashing, LSH) 一、局部敏感哈希LSH 在很多应用领域中，我们面对和需要处理的数据往往是海量并且具有很高的维度，怎样快速地从海量的高维数据集合中找到与某个数据最相似（距离最近）的一个数据或多个数据成为了一个难点和问题。如果是低维的小阅读全文

posted @ 2019-01-02 16:33 FlyingWarrior 阅读(625) 评论(0) 推荐(0) 编辑

2018年12月21日

DSSM算法-计算文本相似度

摘要：转载请注明出处： http://blog.csdn.net/u013074302/article/details/76422551 导语在NLP领域，语义相似度的计算一直是个难题：搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语阅读全文

posted @ 2018-12-21 17:39 FlyingWarrior 阅读(38790) 评论(2) 推荐(9) 编辑

MapReduce Combiner

摘要： Combiner编程(可选步骤，视情况而定！) combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用combiner，那么所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。注意：Combi 阅读全文

posted @ 2018-12-21 15:07 FlyingWarrior 阅读(153) 评论(0) 推荐(0) 编辑

MapReduce shuffle的过程分析

摘要： shuffle阶段其实就是多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点上。 Map端： 1、在map端首先接触的是InputSplit，在InputSplit中含有DataNode中的数据，每一个InputSplit都会分配一个Mapper任务，Mapper任务结束阅读全文

posted @ 2018-12-21 14:37 FlyingWarrior 阅读(306) 评论(0) 推荐(0) 编辑

MapReduce原理

摘要： MapReduce简介 MapReduce执行流程 MapReduce原理 MapReduce的执行步骤： 1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map()，阅读全文

posted @ 2018-12-21 14:11 FlyingWarrior 阅读(203) 评论(0) 推荐(0) 编辑

step by step

公告