10 2020 档案
发表于 2020-10-18 20:02阅读:1326评论:0推荐:0
摘要:TextRank算法 TD-IDF是基于词频的算法,而TextRank是基于图 形的算法。 TextRank是受到PageRank算法的启发。 PageRank算法 PageRank主要用于对在线搜索结果中的网页进行排序。 PageRank对于每个网页页面都给出一个正实数,表示网页的重要程度,Pag
阅读全文 »
发表于 2020-10-14 23:09阅读:5870评论:0推荐:2
摘要:TF-IDF算法 相关概念 信息检索(IR)中最常用的一种文本关键信息表示法 基本信息: 如果某个词在一篇文档中出现的频率高,并且在语料库中其它词库中其他文档中很少出现,则认为这个词具有很好的类别区分能力。 词频TF:Term Frequency,衡量一个term在文档中出现的有多频繁 平均而言,出
阅读全文 »
发表于 2020-10-14 17:01阅读:777评论:0推荐:0
摘要:文本关键字提取 用途: 用核心信息代表原始文档 在文本聚类、分类、自动摘要等领域又很重要的作用 需求:针对一篇文章,在不加入人工干预的情况下提取出关键词(自动提取) 当然,首先需要进行分词! 关键词匹配:事先给定关键词库,然后在文档中进行关键词检索。 关键词提取:根据某种准则,从文档中提取最重要的词
阅读全文 »
发表于 2020-10-14 16:13阅读:930评论:0推荐:0
摘要:word2vec中的CBOW模型 简介 word2vec是Google与2013年开源推出的一个用于获取word vecter的工具包,利用神经网络为单词寻找一个连续向量看空间中的表示。 word2vec有两种网络模型,分别为: Continous Bag of Words Model (CBOW)
阅读全文 »
发表于 2020-10-13 22:53阅读:1433评论:0推荐:0
摘要:相关截图 练习代码 import wordcloud import pandas as pd import jieba import matplotlib.pyplot as plt from nltk.corpus import brown font_path = 'C:\Windows\Font
阅读全文 »
发表于 2020-10-05 13:32阅读:3458评论:0推荐:0
摘要:读取txt文件并生成词云图 (一)下载第三方模块 1.wordcloud:它把我们带权重的关键词渲染成词云。 2.jieba:是一个分词模块,因为我是从一个txt文本里提取关键词,所以需要 jieba 来分词并统计词频。如果是已经有了现成的数据,不再需要它。 pip install wordclou
阅读全文 »
发表于 2020-10-05 13:29阅读:2112评论:0推荐:0
摘要:python爬取《三国演义》小说&统计词频&生成词云图 注意点: 爬取小说正文时用的正则表达式涉及到多行匹配。需要开启多行模式(?s) book_content_re = re.compile(r'(?s)<div.*?id="htmlContent">(.*?)</div>') 源代码练习 imp
阅读全文 »
发表于 2020-10-05 13:28阅读:1181评论:0推荐:0
摘要:Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。 分词主要用于NLP 自然语言处理(Natural
阅读全文 »
发表于 2020-10-05 13:24阅读:204评论:0推荐:0
摘要:使用正则表达式 re.compile 函数 compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。 语法格式为: re.compile(pattern[, flags]) 参数: pattern : 一个字符串
阅读全文 »
发表于 2020-10-05 13:16阅读:214评论:0推荐:0
摘要:截图 源代码 import requests # re是正则表达式 import re # 要爬取的小说url url = 'http://www.shujy.com/5200/244309/' response = requests.get(url) response.encoding='utf-
阅读全文 »
一言(ヒトコト)
山风拂面;如山在呢喃,而少年无言。
——剑来