2016年7月18日

摘要: 最近一直在撸Python Data Analysis上的代码(书是基于Python2的,小白我用的python3),所以我下的时候多少有些改动。 这是9.4中的nltk词频分析关于Dict_key的问题。 源码是这样的: 运行报错: 查了一下subscriptable,这个链接解释的还是比较清楚的。 阅读全文

posted @ 2016-07-18 23:34 不秩稚童 阅读(632) 评论(0) 推荐(0) 编辑

2016年7月10日

摘要: 爬虫有时候也要进入登陆页面之后进行爬取,这就避免不了模拟登陆了。自己在这里卡了好久,终于算是模拟成功一次。 当然,这次也是用requests,真是好用的很呢。上代码。 下面是代码输出结果。 阅读全文

posted @ 2016-07-10 11:16 不秩稚童 阅读(1034) 评论(2) 推荐(0) 编辑

摘要: 本人呢,算是学统计的,就想着爬一下智联的统计岗位信息,嗯,岗位很强势。。。 这里用了requests,bs4进行抓取与解析,数据存入mysql数据库。代码比较乱,先凑和着看,有时间再整理吧。。。 代码输出结果如下。 数据库查询结果如下。 阅读全文

posted @ 2016-07-10 11:00 不秩稚童 阅读(5972) 评论(3) 推荐(0) 编辑

摘要: 在爬取数据量比较大时,用EXCEL存取就不太方便了,这里简单介绍一下python操作mysql数据库的一些操作。本人也是借助别人的博客学习的这些,但是找不到原来博客链接了,就把自己的笔记写在这里,这里感谢博文原创者。 输出结果如下图。 上面算是一个基本流程吧。下面介绍一些具体的用法。 关于数据表的创 阅读全文

posted @ 2016-07-10 10:13 不秩稚童 阅读(821) 评论(0) 推荐(0) 编辑

2016年7月9日

摘要: 上篇介绍了xlsxwriter的用法,本来想写一下xlrd和xlwt的用法,看到这篇文章——http://blog.csdn.net/wangkai_123456/article/details/50457284,觉得没必要了,请参考这篇文章学习吧。 阅读全文

posted @ 2016-07-09 10:54 不秩稚童 阅读(633) 评论(0) 推荐(0) 编辑

摘要: 在爬取数据之后,数据的保存就成为一个新的问题,一般不太大的的数据存储到EXCEL就可以了。这里介绍一个python的第三方库——xlsxwriter. 这个库的安装就不介绍了,pip就可以,不用FQ。这里仅介绍一些简单常用的命令。 首先,说明一下,xlsxwriter只能写入数据,不能读取和修改数据 阅读全文

posted @ 2016-07-09 10:20 不秩稚童 阅读(1857) 评论(0) 推荐(0) 编辑

2016年6月25日

摘要: 想一想,还是写个完整的代码,总结一下前面学的吧。 放几张程序输出的图。 阅读全文

posted @ 2016-06-25 14:09 不秩稚童 阅读(2256) 评论(0) 推荐(1) 编辑

摘要: 接着上面的写,抓取到网址之后,我们要把图片保存到本地,这里有几种方法都是可以的。 # urllib.request.urlretrieve # open.write # with open 相比open来说,with有一个优点就是不用close(),其写入后自动关闭。 阅读全文

posted @ 2016-06-25 13:52 不秩稚童 阅读(3905) 评论(0) 推荐(0) 编辑

摘要: 前面已经写了如何获取网页源码,那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。 首先,找个要抓取图片的网站,获取源码。 小黄人的图。。。接下来浏览器检查元素,发现图片源码格式,前面均为<img ,结尾均为 .jpg 而我们要提取的就是网址部分。 正则表达式如下: 阅读全文

posted @ 2016-06-25 13:29 不秩稚童 阅读(1155) 评论(0) 推荐(0) 编辑

2016年6月22日

摘要: 爬虫 第三方库 requests 阅读全文

posted @ 2016-06-22 19:22 不秩稚童 阅读(1823) 评论(0) 推荐(0) 编辑