1) 项目名称:信息化领域热词分类分析及解释
2) 功能设计:
1)
数据采集:要求从定期自动从网络中爬取信息领域的相关热
词;
2)
数据清洗:对热词信息进行数据清洗,并采用自动分类技术
生成信息领域热词目录,;
3)
热词解释:针对每个热词名词自动添加中文解释(参照百度
百科或维基百科);
4)
热词引用:并对近期引用热词的文章或新闻进行标记,生成
超链接目录,用户可以点击访问;
5)
数据可视化展示:
① 用字符云或热词图进行可视化展示;
② 用关系图标识热词之间的紧密程度。6) 数据报告:可将所有热词目录和名词解释生成 WORD 版报告
形式导出。
今天对爬取到的新闻进行了分词操作,使用jieba进行分词:
对于jieba的使用,首先需要导入这个包。
一般使用import之后没有的包会提示你导入,当然也可以自己手动导入:
点击+号,查询jieba即可。
说说jieba的使用,jieba有三种运行模式。
精确模式、全模式、搜索引擎模式。
精确模式,试图将句子精确的分开,适用于文本分析。
全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。
精确模式:jieba.cut(值,cut_all=False);
全模式:jieba.cut(值,cut_all=True);
搜索引擎模式:jieba.cut_for_search(值)
使用jieba.cut();默认情况下是精确模式。
import jieba
import pandas as pd
import re
from collections import Counter
if __name__ == '__main__':
filehandle = open("Hotword.txt", "r", encoding='utf-8');
file=open("final_hotword2.txt","w",encoding='utf-8');
filepaixu = open("final_hotword.txt","w",encoding='utf-8');
mystr = filehandle.read()
seg_list = jieba.cut(mystr) # 默认是精确模式
print(seg_list)
# all_words = cut_words.split()
# print(all_words)
stopwords = {}.fromkeys([line.rstrip() for line in open(r'final.txt', encoding='UTF-8')])
c = Counter()
for x in seg_list:
if x not in stopwords:
if len(x) > 1 and x != '\r\n' and x != 'quot':
c[x] += 1
print('\n词频统计结果:')
for (k, v) in c.most_common(100): # 输出词频最高的前两个词
print("%s:%d" % (k, v))
file.write(k+'\n')
filepaixu.write(k+":"+str(v)+'\n')
# print(mystr)
filehandle.close();
file.close()
filepaixu()
# seg2 = jieba.cut("好好学学python,有用。", cut_all=False)
# print("精确模式(也是默认模式):", ' '.join(seg2))
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
2022-08-05 Java学习第六周