不秩稚童 - 博客园

我与python3擦肩而过（一）—— Dict与collections.OrderredDict邂逅

摘要：最近一直在撸Python Data Analysis上的代码（书是基于Python2的，小白我用的python3），所以我下的时候多少有些改动。这是9.4中的nltk词频分析关于Dict_key的问题。源码是这样的：运行报错：查了一下subscriptable,这个链接解释的还是比较清楚的。阅读全文

posted @ 2016-07-18 23:34 不秩稚童阅读(632) 评论(0) 推荐(0) 编辑

爬虫再探实战（二）———模拟登陆豆瓣

摘要：爬虫有时候也要进入登陆页面之后进行爬取，这就避免不了模拟登陆了。自己在这里卡了好久，终于算是模拟成功一次。当然，这次也是用requests，真是好用的很呢。上代码。下面是代码输出结果。阅读全文

posted @ 2016-07-10 11:16 不秩稚童阅读(1034) 评论(2) 推荐(0) 编辑

爬虫再探实战（一）——爬取智联招聘职位信息

摘要：本人呢，算是学统计的，就想着爬一下智联的统计岗位信息，嗯，岗位很强势。。。这里用了requests,bs4进行抓取与解析，数据存入mysql数据库。代码比较乱，先凑和着看，有时间再整理吧。。。代码输出结果如下。数据库查询结果如下。阅读全文

posted @ 2016-07-10 11:00 不秩稚童阅读(5972) 评论(3) 推荐(0) 编辑

爬虫再探之mysql简单使用

摘要：在爬取数据量比较大时，用EXCEL存取就不太方便了，这里简单介绍一下python操作mysql数据库的一些操作。本人也是借助别人的博客学习的这些，但是找不到原来博客链接了，就把自己的笔记写在这里，这里感谢博文原创者。输出结果如下图。上面算是一个基本流程吧。下面介绍一些具体的用法。关于数据表的创阅读全文

posted @ 2016-07-10 10:13 不秩稚童阅读(821) 评论(0) 推荐(0) 编辑

python3爬虫再探之EXCEL（续）

摘要：上篇介绍了xlsxwriter的用法，本来想写一下xlrd和xlwt的用法，看到这篇文章——http://blog.csdn.net/wangkai_123456/article/details/50457284，觉得没必要了，请参考这篇文章学习吧。阅读全文

posted @ 2016-07-09 10:54 不秩稚童阅读(633) 评论(0) 推荐(0) 编辑

python3爬虫再探之EXCEL

摘要：在爬取数据之后，数据的保存就成为一个新的问题，一般不太大的的数据存储到EXCEL就可以了。这里介绍一个python的第三方库——xlsxwriter. 这个库的安装就不介绍了，pip就可以，不用FQ。这里仅介绍一些简单常用的命令。首先，说明一下，xlsxwriter只能写入数据，不能读取和修改数据阅读全文

posted @ 2016-07-09 10:20 不秩稚童阅读(1857) 评论(0) 推荐(0) 编辑

python3爬虫初探（五）之从爬取到保存

摘要：想一想，还是写个完整的代码，总结一下前面学的吧。放几张程序输出的图。阅读全文

posted @ 2016-06-25 14:09 不秩稚童阅读(2256) 评论(0) 推荐(1) 编辑

python3爬虫初探（四）之文件保存

摘要：接着上面的写，抓取到网址之后，我们要把图片保存到本地，这里有几种方法都是可以的。 # urllib.request.urlretrieve # open.write # with open 相比open来说，with有一个优点就是不用close(),其写入后自动关闭。阅读全文

posted @ 2016-06-25 13:52 不秩稚童阅读(3905) 评论(0) 推荐(0) 编辑

python3爬虫初探（三）之正则表达式

摘要：前面已经写了如何获取网页源码，那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。首先，找个要抓取图片的网站，获取源码。小黄人的图。。。接下来浏览器检查元素，发现图片源码格式,前面均为<img ，结尾均为 .jpg 而我们要提取的就是网址部分。正则表达式如下：阅读全文

posted @ 2016-06-25 13:29 不秩稚童阅读(1155) 评论(0) 推荐(0) 编辑

python3爬虫初探（二）之requests

摘要：爬虫第三方库 requests 阅读全文

posted @ 2016-06-22 19:22 不秩稚童阅读(1823) 评论(0) 推荐(0) 编辑