TF-IDF具体算法和原理

TF-IDF算法

TF-IDF的具体实现

　　jieba，NLTK，sklearn，gensim等程序包都可以实现TF-IDF的计算。除算法细节上有差异外，更多的是数据输入/输出格式上的不同。

使用jieba实现TD-IDF算法

　　输出结果会自动按照TF-IDF值降序排列，并且直接给出的是词条而不是字典ID，便于阅读使用。

　　可在计算TF-IDF时直接完成分词，并使用停用词表和自定义词库，非常方便。（直接传入句子，不需要提前切分词）

　　有默认的IDF语料库，可以不训练模型，直接进行计算

　　以单个文本为单位进行分析。

　　jieba核心是拿到关键词本身

jieba.analyse.extract_tags(

sentence 为待提取的文本
topK = 20 : 返回几个 TF/IDF 权重最大的关键词
withWeight = False : 是否一并返回关键词权重值
allowPOS = () : 仅包括指定词性的词，默认值为空，即不筛选
)
jieba.analyse.set_idf_path(file_name)

jieba.analyse.set_stop_words(file_name)

关键词提取时使用自定义停止词（Stop Words）语料库

劳动防护 13.900677652

生化学 13.900677652

奥萨贝尔 13.900677652

奧薩貝爾 13.900677652

考察队员 13.900677652

jieba.analyse.TFIDF(idf_path = None)

新建 TFIDF模型实例
idf_path : 读取已有的TFIDF频率文件（即已有模型）
使用该实例提取关键词：TFIDF实例.extract_tags()

# 使用jieba提取关键词，
import jieba
import jieba.analyse

# 注意：函数时在使用默认的TFIDF模型进行分析
t = jieba.analyse.extract_tags(chapter.txt[1])
print(t)  
# ['杨铁心', '包惜弱', '郭啸天', '颜烈', '丘处机', '武官', '杨二人', '官兵', ...]
print("返回权重值")
# 要求返回权重值
t = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print(t)
# [('杨铁心', 0.21886511509515091), ('包惜弱', 0.1685852913570757), ('郭啸天', 0.09908082913091291),...]

按照关键词评分的重要性排序的结果。

　　t = jieba.analyse.extract_tags(chapter.txt[1])
　　print(t)  
　　# ['杨铁心', '包惜弱', '郭啸天', '颜烈', '丘处机', '武官', '杨二人', '官兵', ...]

如果想要进一步知道关键词的具体评分值，加上withWeight=True

　　# 要求返回权重值
　　t = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
　　print(t)
　　# [('杨铁心', 0.21886511509515091), ('包惜弱', 0.1685852913570757), ('郭啸天', 0.09908082913091291),...]


应用自定义词典改善分词效果

# 应用自定义词典改善分词效果
jieba.load_userdict('金庸小说词库.txt') # dict为自定义词典的路径

# 在TFIDF计算中直接应用停用词表
jieba.analyse.set_stop_words('停用词.txt')

Tfres = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print(Tfres[:10])
# [('杨铁心', 0.24787133516800222), ('包惜弱', 0.1909279203321098), ('郭啸天', 0.11221202335308209)...]

　使用自定义的TFIDF频率文件

#-------------------------------------------------------------------------------------------------
# 结巴分词有一个默认的TFIDF权重表，或者说有一个现成的模型，可以用该模型直接用于这个语料的计算中。但是这样的准确率不高

# 正确的做法是：我们应该把射雕英雄传全书拿来，做出一个TFIDF的权重频率模型，然后把它读进来，
# 如下，我们是用自定义的TFIDF频率文件‘idf.txt.big’

# 使用自定义TFIDF频率文件
jieba.analyse.set_idf_path('idf.txt.big')
TFres1 = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print('使用自定义TFIDF频率文件')
print(TFres1[:10])

# [('杨铁心', 0.24787133516800222), ('包惜弱', 0.1909279203321098), ('郭啸天', 0.11221202335308209)...]

使用sklearn实现TF-IDF算法

sklearn输出格式为矩阵，直接为后续的sklearn建模服务
需要先使用背景语料库进行模型训练。
结果给出的是字典ID而不是具体的词条，直接阅读比较困难
class sklearn.feature_extraction.text.TfidfTransformer()
参数基本和上面一样

# 使用sklearn实现TD-IDF算法

'''
sklearn输出格式为矩阵，直接为后续的sklearn建模服务
需要先使用背景语料库进行模型训练。
结果给出的是字典ID而不是具体的词条，直接阅读比较困难
class sklearn.feature_extraction.text.TfidfTransformer()
参数基本和上面一样
'''

from sklearn.feature_extraction.text import TfidfTransformer

# sklearn不能直接切中文句子，所以我们需要提前做好分词，用空格分开 ，（取前5章）
txtlist = [" ".join(m_cut(w)) for w in chapter.txt.iloc[:5]]

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(txtlist)# 将文本中的词语转换为词频矩阵

transformer = TfidfTransformer()

tfifd = transformer.fit_transform(X) #基于词频矩阵X计算TF-IDF值
print("*"*100)
print(tfifd)
'''
(0, 11621)    0.0056535238362054275
  (0, 11614)    0.0056535238362054275
  (0, 11613)    0.0056535238362054275
  (0, 11612)    0.010775737599046372
  .........
'''


print("*"*100)
t = tfifd.toarray()
print(t)
'''
[[0.         0.         0.         ... 0.00565352 0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.01961759 0.         0.         ... 0.         0.         0.        ]
 [0.         0.00666239 0.         ... 0.         0.         0.        ]
 [0.         0.         0.00652369 ... 0.         0.00652369 0.00652369]]
'''

print("*"*100)
# 将稀疏矩阵转换为标准矩阵
t = tfifd.todense()
print(t)
'''
[[0.         0.         0.         ... 0.00565352 0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.01961759 0.         0.         ... 0.         0.         0.        ]
 [0.         0.00666239 0.         ... 0.         0.         0.        ]
 [0.         0.         0.00652369 ... 0.         0.00652369 0.00652369]]
'''


print(t.shape)
#(5, 11624)

print("字典长度：",len(vectorizer.vocabulary_))
# 字典长度： 11624
print("字典：")
print(vectorizer.vocabulary_)
'''
{'第一回': 8722, '风雪': 11320, '惊变': 5284, '钱塘江': 10872, '浩浩': 7520, '江水': 7363, '日日夜夜': 6537, ....
显然，直接阅读的话，很难，这只是方便下一步的建模
'''

使用gensim实现TF-IDF算法

　　输出格式为list，目的也是为后续的建模分析服务。

　　需要先使用背景语料库进行模型训练。

　　结果中给出的是字典ID，而不是具体的词条（jieba给出的是具体词条），直接阅读结果比较困难。

# 使用gensim实现TF-IDF算法
'''
输出格式为list, 目的也是为了后续的建模服务
需要先使用背景语料库进行模型训练
结果中给出的是字典ID，而不是具体词条，直接阅读比较困难

'''

# 文档分词以及预处理 (取前5章)   gensim可以直接使用切好的分词列表（list)，而不必用空格隔开
chaplist = [m_cut(w) for w in chapter.txt.iloc[:5]]
print("*"*100)
print(chaplist)
# [['第一回', '风雪', '惊变', '钱塘江', '浩浩', '江水', '日日夜夜', '无穷', '无休', '浙...
#导入2个模块，一个是语料库，一个是建模的
from gensim import corpora, models

# 生成文档对应的字典和bow稀疏向量
dictionary = corpora.Dictionary(chaplist)
# 语料库  将chaplist中每个成员都转为bow稀疏向量
corpus = [dictionary.doc2bow(text) for text in chaplist] #仍为 list in list
print("&"*100)
print(corpus)
# [词ID，词频]   直接阅读很难受
# [[(0, 1), (1, 32), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1),...]]

# 建模
# 针对corpus建立TD-IDF模型，这是个总模型，包含了对整个文档建模的背景信息
tfifd_model = models.TfidfModel(corpus)

# 对所需文档计算TF-IDF结果   用刚刚建立的tfidf_model模型对corpus语料进行计算
corpus_tfidf = tfifd_model[corpus]

print("*"*100)
print(corpus_tfidf)
# <gensim.interfaces.TransformedCorpus object at 0x1F5554C0>

# 列出所需文档的TF-IDF计算结果   输出第四章结果
t = corpus_tfidf[3]
print(t)
# List结果，，[词ID，词权重]
# [(11, 0.00404720107824102), (12, 0.003535871261991013), (13, 0.0017679356309955065),

# 列出字典内容
# 这样可以根据词ID，来对应上面的TF-IDF计算结果
print(dictionary.token2id)
# {'一两天': 0, '一个': 1, '一个个': 2, '一个二十': 3, '一个多': 4, '一个月': 5, '一了百了': 6, '一事无成': 7, '一人': 8, '一件': 9,

posted @ 2020-10-14 23:09 lishuaics 阅读(5591) 评论(0) 编辑收藏举报

刷新页面返回顶部

Youth