邮箱图标 wotula.com
摘要: TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。一. TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性。公式为: 阅读全文
posted @ 2016-03-10 14:35 编程浪子Yiutto 阅读(913) 评论(0) 推荐(0) 编辑
摘要: 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 阅读全文
posted @ 2016-03-10 11:08 编程浪子Yiutto 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面, 阅读全文
posted @ 2016-03-10 11:07 编程浪子Yiutto 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一 阅读全文
posted @ 2016-03-10 11:04 编程浪子Yiutto 阅读(304) 评论(0) 推荐(0) 编辑