2016年7月28日

摘要: 仔细看的话,会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333. 言归正传,今天刚了解到boson公司有python关于自然语言处理的API,于是试着用了一下,官方文档很不错,简单明了。首先是pip inst 阅读全文

posted @ 2016-07-28 17:26 不秩稚童 阅读(1961) 评论(0) 推荐(0) 编辑

摘要: 接着整理一下时间和日期与发帖量的关系。 PROJECT2:日期(选取2015整年) 代码如下:(这里的 kebiao_all.xlsx 是之前抓到的全部的数据) 在得到的EXCEL简单作图,输出如下: PROJECT3:时间 仔细看就能发现,这个和前面的QQ聊天数据分析是很相似的。 输出如下: 至此 阅读全文

posted @ 2016-07-28 15:05 不秩稚童 阅读(1456) 评论(0) 推荐(0) 编辑

摘要: 上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。 这里一共分析了三个方面:TOP10 word;时间与发帖量的关系,日期与发帖量的关系。 阅读全文

posted @ 2016-07-28 13:29 不秩稚童 阅读(1941) 评论(0) 推荐(0) 编辑

摘要: 关于爬虫,开始以为只能爬取网页数据,后来知道APP也能抓取。于是,在学校利用空闲时间,耗时两周实现了数据的抓取和简单的数据分析。 目标,抓取超级课程表XX大学(其实是我们大学啦。。。)学生20000条发帖信息。思路如下: STEP1:为我们的爬虫找到入口 APP请求数据,也是通过网络协议,这样,我们 阅读全文

posted @ 2016-07-28 12:57 不秩稚童 阅读(19008) 评论(1) 推荐(1) 编辑