摘要: 因为经常遇到各种错误,所以转载过来,以备忘:经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted""OS error code 2: No such file or directory""OS error code 3: No such process""OS error code 4: Interrupted system call" 阅读全文
posted @ 2012-03-28 17:17 ~大器晚成~ 阅读(1770) 评论(1) 推荐(0) 编辑
摘要: 上次介绍了信息检索技术——布尔检索,布尔模型已经可以解决一个很重要的问题,就是找到和用户需求相关的文档(其中还需要很多处理,比如分词,归一化,去掉停用词等等,我们只是介绍主要的框架流程)。但是这样找到的文档会有很多,也许上千个,也许上万个,这远远不是用户所要的。用户也不会去从几万个文档中挑选自己要找的。因此我们需要对结果进行排序,把最能满足用户需求的文档放在最上面显示给用户,就像google和baidu做的一样。细心的朋友就能发现,其实信息检索是一个循序渐进的剪枝和筛选过程,最后留下的就是用户想要的。因此,我们需要一种评分机制来进行排序,通过得分的高低排除top N的文档返回给用户。这个评分通 阅读全文
posted @ 2012-03-28 09:49 ~大器晚成~ 阅读(12446) 评论(3) 推荐(1) 编辑