摘要: urllib 1.简介: urllib 模块是python的最基础的爬虫模块,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象。urllib 支持各种 web 协议,例如:HTTP、FTP、Gopher;同时也支持对本地文件进行访问。但一般而言多用来进行爬虫的编写。 阅读全文
posted @ 2017-11-01 22:41 Eeyhan 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 与爬虫相关的常用模块列表。 原文出处:传送门链接 网络 阅读全文
posted @ 2017-11-01 17:10 Eeyhan 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 变色龙原理 变色龙这种动物想必大家都了解,它们会根据周遭环境的局势来改变自己的颜色,伪装自己。 那么爬虫有这种技能吗?当然是有的,先不着急说这个问题。 从上一篇开始,你有没有想过,站在网站管理的角度,如果在同一时间段,大家全部利用爬虫程序对自己的网站进行爬取操作,那么这网站服务器能不能承受这种负荷?肯定不能啊,如果严重超负荷则会时服务器宕机(死机)的,对于一些商业型的网站,宕机一秒钟的损失都是不得了的,这不是一个管理员能承担的,对吧?那管理员会网站服务器做什么来优化呢?我想到的是,写一个脚本,当检测到一个IP访问的速度过快,报文头部并不是浏览器的话,那么就拒绝服务,或者屏蔽IP等,这样就可以减少服务器的负担并让服务器正常进行。 阅读全文
posted @ 2017-11-01 16:59 Eeyhan 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 爬虫 1.什么是爬虫 爬虫就是昆虫一类的其中一个爬行物种,擅长爬行。 哈哈,开玩笑,在编程里,爬虫其实全名叫网络爬虫,网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者。是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索 阅读全文
posted @ 2017-11-01 14:55 Eeyhan 阅读(293) 评论(0) 推荐(0) 编辑