1. 项目名称:信息化领域热词分类分析及解释
2. 功能设计:
1)
数据采集:要求从定期自动从网络中爬取信息领域的相关热
词;
2)
数据清洗:对热词信息进行数据清洗,并采用自动分类技术
生成信息领域热词目录,;
3)
热词解释:针对每个热词名词自动添加中文解释(参照百度
百科或维基百科);
4)
热词引用:并对近期引用热词的文章或新闻进行标记,生成
超链接目录,用户可以点击访问;
5)
数据可视化展示:
① 用字符云或热词图进行可视化展示;
② 用关系图标识热词之间的紧密程度。6) 数据报告:可将所有热词目录和名词解释生成 WORD 版报告
形式导出。
近期做信息领域热词分类分析:
目前已完成对数据的采集,
爬取了博客园的最新新闻,来进行信息领域热词的分析。
import requests
from bs4 import BeautifulSoup
import pymysql
import json
import lxml
import xlwt
def getTitle(url):
response = requests.get(url, headers=headers) # 发送网络请求
content = response.content.decode('utf-8')
soup = BeautifulSoup(content, 'html.parser')
list=soup.select('div:nth-child(2) > h2:nth-child(1) > a:nth-child(1)')
for i in range(18):
print(list[i].text)
return list
url = "https://news.cnblogs.com/n/recommend?page={}"
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息
f = xlwt.Workbook(encoding='utf-8')
ft=open("Hotword.txt", "w", encoding='utf-8')
sheet01 = f.add_sheet(u'sheet1', cell_overwrite_ok=True)
sheet01.write(0, 0, '博客最热新闻') # 第一行第一列
temp = 0
for i in range(1,100):
newurl = url.format(i)
title = getTitle(newurl)
for j in range(len(title)):
ft.write(title[j].text +'\n')
sheet01.write(temp + j + 1, 0, title[j].text)
temp += len(title)
print("第"+str(i)+"页打印完!")
print("全部打印完!!!")
f.save('Hotword02.xls')
ft.close()
本周学习时长18小时
下周学习hive的安装操作
明天继续完成其他方面的要求
遇到的问题以及截图
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!