怎么这个评论区也有你?!——豆瓣三电影影评用户分析(进度:Done.)Douban-three-movies-analyser ver.0.1.0
Douban-three-movies-analyser ver.0.1.0
项目说明
本项目旨在分析3个电影之间的用户分布,借以更好地分析三部电影的关系。
为避免版权纠纷等缘故,样例结果图进行了匿名。
作业Q&A
半爬虫 + 半算法题
Q: 可以是 Web,也可以是用 Python 直接画,静态即可
A: Venn图保存在了目录中的out.png
Q: 算法部分三个 Up 主的选择上,请选择同一类别的 Up,而且粉丝数尽量不要太多(1W~10W左右即可!)
A: 选择了豆瓣影评(短评都是50-70w,太多了)
Q: 爬虫部分,标注好每个时间对应的粉丝数
A: 将在bilibili那个项目中实现
Q: 数据请勿商用,不要公示爬到的粉丝具体数据;如果 B 站数据太大爬不动,可以换成知乎~
A: 仅公示源代码,不公示具体数据
Q: 允许重合度不完全准确,但是最好要给出正确答案并计算偏差
A: 完全准确
Q: 如果有分工,请用 Github 协作
A: 无分工,但是github项目在github repo.
使用工具/教程与疑难杂症
语言及库
Python: urllib, matplotlib_venn, json, re(regex), etc...
python字典相加
如果A字典存在的key不需要与B存在的key相加,就只需要A.update(B)即可
码农之家: Python两个字典键同值相加的方法总结.
绘制venn图
CSDN: python 基于matplotlib_venn实现维恩图的绘制.
StackOverflow: 保存Venn图.
matplotlib中文乱码
知乎: matplotlib图例中文乱码.
git回滚与撤销
简书: git 删除历史commit.
CSDN: git pull --rebase 做了什么? 以及 Cannot rebase: You have unstaged changes 解决办法.
Living with bustle, hearing of isolation.