随笔分类 - 爬虫
摘要:开始 开篇: "爬代理ip v2.0(未完待续)" ,实现了获取代理ips,并把这些代理持久化(存在本地)。同时使用的是tornado的HTTPClient的库爬取内容。 中篇:开篇主要是获取代理ip;中篇打算使用代理ip,同时优化代码,并且异步爬取内容。所以接下来,就是写一个:异步,使用代理的爬虫
阅读全文
摘要:爬代理ip 所有的代码都放到了我的 "github" 上面, HTTP代理常识 HTTP代理按匿名度可分为透明代理、匿名代理和高度匿名代理。 特别感谢:勤奋的小孩 在评论中指出我文章中的错误。 REMOTE_ADDR HTTP_VIA HTTP_X_FORWARDED_FOR 你写的这三个,第一个是
阅读全文
摘要:今天早上起来,第一件事情就是理一理今天该做的事情,瞬间get到任务,写一个只用python字符串内建函数的爬虫,定义为v1.0,开发中的版本号定义为v0.x。数据存放?这个是一个练手的玩具,就写在txt文本里吧。其实主要的不是学习爬虫,而是依照这个需求锻炼下自己的编程能力,最重要的是要有一个清晰的思...
阅读全文
摘要:#coding:utf-8import urllib#######爬虫v0.1 利用urlib2 和 字符串内建函数####### 获取网页内容def getHtml(url): page = urllib.urlopen(url) html = page.read() retur...
阅读全文