2016年8月10日

摘要: 正在学习《用python做科学计算》,在练习最小二乘法时遇到matplotlib无法显示中文的问题。查资料,感觉动态的加上几条语句是最好,这里贴上全部的代码。 输出结果: #########2016/10/11补更############# 是这样的,我在spyder环境下,用matplotlib作 阅读全文

posted @ 2016-08-10 23:31 不秩稚童 阅读(3016) 评论(3) 推荐(0) 编辑

2016年7月28日

摘要: 仔细看的话,会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP,不过,这个坑太大,小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333. 言归正传,今天刚了解到boson公司有python关于自然语言处理的API,于是试着用了一下,官方文档很不错,简单明了。首先是pip inst 阅读全文

posted @ 2016-07-28 17:26 不秩稚童 阅读(1959) 评论(0) 推荐(0) 编辑

摘要: 接着整理一下时间和日期与发帖量的关系。 PROJECT2:日期(选取2015整年) 代码如下:(这里的 kebiao_all.xlsx 是之前抓到的全部的数据) 在得到的EXCEL简单作图,输出如下: PROJECT3:时间 仔细看就能发现,这个和前面的QQ聊天数据分析是很相似的。 输出如下: 至此 阅读全文

posted @ 2016-07-28 15:05 不秩稚童 阅读(1455) 评论(0) 推荐(0) 编辑

摘要: 上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。 这里一共分析了三个方面:TOP10 word;时间与发帖量的关系,日期与发帖量的关系。 阅读全文

posted @ 2016-07-28 13:29 不秩稚童 阅读(1940) 评论(0) 推荐(0) 编辑

摘要: 关于爬虫,开始以为只能爬取网页数据,后来知道APP也能抓取。于是,在学校利用空闲时间,耗时两周实现了数据的抓取和简单的数据分析。 目标,抓取超级课程表XX大学(其实是我们大学啦。。。)学生20000条发帖信息。思路如下: STEP1:为我们的爬虫找到入口 APP请求数据,也是通过网络协议,这样,我们 阅读全文

posted @ 2016-07-28 12:57 不秩稚童 阅读(18972) 评论(1) 推荐(1) 编辑

2016年7月24日

摘要: ####################################### 已更新续集,戳这里。 ######################################## 是这样的,有位学姐呢初学python ,问我怎么处理QQ聊天记录,当时就说了用正则,也没去写,现在闲着(被ajax虐 阅读全文

posted @ 2016-07-24 18:14 不秩稚童 阅读(15183) 评论(1) 推荐(0) 编辑

2016年7月23日

摘要: 还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息。 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造requests请求对象,然后解析json文件啦。源码如下: 简单说明一下params部分,大部分是从json文件 阅读全文

posted @ 2016-07-23 00:39 不秩稚童 阅读(12617) 评论(2) 推荐(0) 编辑

2016年7月22日

摘要: 自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆。目前正在不断学习相关知识。下面简单写一下用selenium处理动态加载页面相关的知识。目标——抓取页面所有的高考录取分数信息。 对于动态加载,开始的时候是看到Selenium+Ph 阅读全文

posted @ 2016-07-22 23:01 不秩稚童 阅读(22457) 评论(6) 推荐(0) 编辑

摘要: 记得初学python时就学的爬虫,经常遇到编码问题(其实在python3里面编码问题已经很少了。。。),用requests库就挺方便解决这些问题的。近来有共同学习python的程序员写了个电子书网站,想要相关的爬虫,于是,我去试了试。。。当然,第一步就遇到“编码问题”,这次requests就用不上啦 阅读全文

posted @ 2016-07-22 22:21 不秩稚童 阅读(1131) 评论(0) 推荐(0) 编辑

2016年7月21日

摘要: csv文件操作 阅读全文

posted @ 2016-07-21 13:16 不秩稚童 阅读(5766) 评论(0) 推荐(0) 编辑