陈烨---第一次个人编程作业

博客班级	https://edu.cnblogs.com/campus/fzzcxy/2018CS/
作业要求	https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732
作业目标	爬取评论信息、对评论进行分词和将评论信息展示成词云图
作业源代码	https://github.com/cychenye/first-personal-work
学号	211806207

一、爬取评论

接下来查找评论内容，发现评论内容对应了 content 字段，就利用正则来提取评论内容。

def getCurrentPageComments(html):
    pat = '"content":"(.*?)"'
    return re.compile(pat,re.S).findall(html)

首先把 comments.txt 中的评论内容读出来，然后用 jieba 分词的精确模式进行分词。
```
data = open("comments.txt", "r", encoding="utf-8").read()
words = jieba.lcut(data)
```
看到一些同学用了停用词做过滤，我也去整了一个。遍历 jieba 分词后的结果，只保存不在停用词中的词语。
```
lists = []
for word in words:
    if word not in stopWords:
        lists.append(word)
return lists
```
将过滤后的结果转成 {"name":word,"value":cnt} 的格式，然后写到 word.json 文件中。

建个 index.html 文件，导入相关的 JavaScript 文件：echarts.min.js、echarts-wordcloud.min.js、jquery-3.5.1.js。
把本地的 word.json 文件也导进来。参考了网上的资料，然后使用了 jQuery 中的 $.getJSON() 方法，结果发现好像前端无法直接读取本地 JSON 文件，然后在 CSDN 上找到了解决方法，打开 index.html 前先执行 serve.py，以此来创建一个临时的本地代理服务器。
```
$.getJSON("http://localhost:8000/word.json", "", function (res) {  // 访问本地代理服务器获取 JSON 数据
})
```
看到网上有现成的模板，拿来改一下参数直接用上了。

posted @ 2021-02-24 11:52 cychenye 阅读(203) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义

昵称： cychenye
园龄： 6年4个月
粉丝： 0
关注： 8

2025年3月

日

一

二

三

四

五

六