10 2020 档案

TextRank算法

发表于 2020-10-18 20:02阅读：1326评论：0推荐：0

摘要：TextRank算法 TD-IDF是基于词频的算法，而TextRank是基于图形的算法。 TextRank是受到PageRank算法的启发。 PageRank算法 PageRank主要用于对在线搜索结果中的网页进行排序。 PageRank对于每个网页页面都给出一个正实数，表示网页的重要程度，Pag 阅读全文 »

posted @ 2020-10-18 20:02 lishuaics 阅读(1326) 评论(0) 推荐(0) 编辑

TF-IDF具体算法和原理

发表于 2020-10-14 23:09阅读：5870评论：0推荐：2

摘要：TF-IDF算法相关概念信息检索（IR）中最常用的一种文本关键信息表示法基本信息：如果某个词在一篇文档中出现的频率高，并且在语料库中其它词库中其他文档中很少出现，则认为这个词具有很好的类别区分能力。词频TF：Term Frequency，衡量一个term在文档中出现的有多频繁平均而言，出阅读全文 »

posted @ 2020-10-14 23:09 lishuaics 阅读(5870) 评论(0) 推荐(2) 编辑

文本关键字提取

发表于 2020-10-14 17:01阅读：777评论：0推荐：0

摘要：文本关键字提取用途：用核心信息代表原始文档在文本聚类、分类、自动摘要等领域又很重要的作用需求：针对一篇文章，在不加入人工干预的情况下提取出关键词（自动提取）当然，首先需要进行分词！关键词匹配：事先给定关键词库，然后在文档中进行关键词检索。关键词提取：根据某种准则，从文档中提取最重要的词阅读全文 »

posted @ 2020-10-14 17:01 lishuaics 阅读(777) 评论(0) 推荐(0) 编辑

word2vec中的CBOW模型

发表于 2020-10-14 16:13阅读：930评论：0推荐：0

摘要：word2vec中的CBOW模型简介 word2vec是Google与2013年开源推出的一个用于获取word vecter的工具包，利用神经网络为单词寻找一个连续向量看空间中的表示。 word2vec有两种网络模型，分别为： Continous Bag of Words Model （CBOW）阅读全文 »

posted @ 2020-10-14 16:13 lishuaics 阅读(930) 评论(0) 推荐(0) 编辑

WordCloud词云制作以及美化

发表于 2020-10-13 22:53阅读：1433评论：0推荐：0

摘要：相关截图练习代码 import wordcloud import pandas as pd import jieba import matplotlib.pyplot as plt from nltk.corpus import brown font_path = 'C:\Windows\Font 阅读全文 »

posted @ 2020-10-13 22:53 lishuaics 阅读(1433) 评论(0) 推荐(0) 编辑

读取txt文件并生成词云图

发表于 2020-10-05 13:32阅读：3458评论：0推荐：0

摘要：读取txt文件并生成词云图 (一)下载第三方模块 1.wordcloud:它把我们带权重的关键词渲染成词云。 2.jieba：是一个分词模块，因为我是从一个txt文本里提取关键词，所以需要 jieba 来分词并统计词频。如果是已经有了现成的数据，不再需要它。 pip install wordclou 阅读全文 »

posted @ 2020-10-05 13:32 lishuaics 阅读(3458) 评论(0) 推荐(0) 编辑

python爬取《三国演义》小说&统计词频&生成词云图

发表于 2020-10-05 13:29阅读：2112评论：0推荐：0

摘要：python爬取《三国演义》小说&统计词频&生成词云图注意点：爬取小说正文时用的正则表达式涉及到多行匹配。需要开启多行模式(?s) book_content_re = re.compile(r'(?s)<div.*?id="htmlContent">(.*?)</div>') 源代码练习 imp 阅读全文 »

posted @ 2020-10-05 13:29 lishuaics 阅读(2112) 评论(0) 推荐(0) 编辑

Python中文分词及词频统计

发表于 2020-10-05 13:28阅读：1181评论：0推荐：0

摘要：Python中文分词及词频统计中文分词中文分词(Chinese Word Segmentation)，将中文语句切割成单独的词组。英文使用空格来分开每个单词的，而中文单独一个汉字跟词有时候完全不是同个含义，因此，中文分词相比英文分词难度高很多。分词主要用于NLP 自然语言处理（Natural 阅读全文 »

posted @ 2020-10-05 13:28 lishuaics 阅读(1181) 评论(0) 推荐(0) 编辑

python爬取网站的小说2

发表于 2020-10-05 13:24阅读：204评论：0推荐：0

摘要：使用正则表达式 re.compile 函数 compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。语法格式为： re.compile(pattern[, flags]) 参数： pattern : 一个字符串阅读全文 »

posted @ 2020-10-05 13:24 lishuaics 阅读(204) 评论(0) 推荐(0) 编辑

python爬取网站的小说

发表于 2020-10-05 13:16阅读：214评论：0推荐：0

摘要：截图源代码 import requests # re是正则表达式 import re # 要爬取的小说url url = 'http://www.shujy.com/5200/244309/' response = requests.get(url) response.encoding='utf- 阅读全文 »

posted @ 2020-10-05 13:16 lishuaics 阅读(214) 评论(0) 推荐(0) 编辑

公告

lishuaics

越努力，成就感越强。

Hard work magnifies achievement’s joy.

关注

跳至底部

昵称： lishuaics
园龄： 4年8个月
粉丝： 6
关注： 2

+加关注

一言（ヒトコト）

山风拂面；如山在呢喃，而少年无言。

——剑来

随笔档案 (28)

文章档案 (1)

2022年1月(1)

Youth

10 2020 档案

公告

lishuaics

越努力，成就感越强。

Hard work magnifies achievement’s joy.

一言（ヒトコト）

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔档案 (28)

文章档案 (1)

阅读排行榜

推荐排行榜