TF-IFD算法及python实现关键字提取

TF-IDF算法：

TF：词频(Term Frequency)，即在分词后，某一个词在文档中出现的频率。

IDF：逆文档频率(Inverse Document Frequency)。在词频的基础上给每个词分配权重，如果有三个词的词频一样，但这并不代表这三个词在这篇文章的重要性是一样的，因此还要给这三个词分配权重，IDF就是某个词在在整个语料库中少见但是在这边文章中多次出现，很可能反映了此文章的特性，因此IDF就高。等于语料库中文档总数比上包含改词的文档数的对数

某个词对文章的重要性越高，它的TF-IDF值就越大。

算法细节：

词频(TF) = 某个词在文章中的出现次数／文章的总次数或者某个词在文章中出现的次数／该文出现次数最多的词的出现次数（用于比较长的文章）

逆文档频率(IDF) = log(语料库的文档总数／(包含该词的文档数+1)) 为了避免分母为0即所有文档都不包含该词，因此分母加一。

TF-IDF= TF*IDF

python实现关键词提取：

首先要安装jieba分词的包

1 2	`import` `jieba` `import` `jieba.analyse<br><code` `class="language-text"><br></code>top_keywords1` `=` `jieba.analyse.extract_tags('我爱北京天安门', topK=10, withWeight=True)#可用<code class="language-text">allowPOS参数为限定范围词性类型</code>`

输出结果为：

1	`[('天安门',` `4.49770143677), ('北京',` `2.33370115436)]`

posted @ 2017-11-03 16:26 郭雪原阅读(1524) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：郭雪原
园龄： 8年
粉丝： 2
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

TF-IFD算法及python实现关键字提取

TF-IDF算法：

python实现关键词提取：

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论