2018年3月2日

TF-IDF与余弦相似性的应用(二):找出相似文章

摘要: 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。 为 阅读全文

posted @ 2018-03-02 12:00 NothingLZ 阅读(183) 评论(0) 推荐(0) 编辑

TF-IDF与余弦相似性的应用(一):自动提取关键词

摘要: 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都 阅读全文

posted @ 2018-03-02 11:52 NothingLZ 阅读(196) 评论(0) 推荐(0) 编辑

flume简介

摘要: 组件介绍: 代理 Flume Agent agent source agent channel 监控网络端口使用 启动命令:flume-ng agent -n a1 -c $FLUME_HOME/conf -f $FLUME_HOME/conf/example.conf -Dflume.root.l 阅读全文

posted @ 2018-03-02 00:00 NothingLZ 阅读(157) 评论(0) 推荐(0) 编辑

导航