python爬虫基础(一)基础信息
相关内容:python爬虫知识清单【更】
基础知识
-
request库:自动爬取HTML页面。自动网络请求提交
-
robots.txt:网络爬虫排除标准
-
Beautiful soup:解析HTML页面
-
RE:正则表达式提取重要信息
-
scrapy:网络爬虫框架
开发工具选择
文本工具类IDE
-
IDLE:python自带的常用入门工具
-
Sublime Text:√
集成工具类IDE
-
PyCharm:简单,集成度高,适合复杂功能 √
-
Anaconda:开源免费,科学计算
-
wing:收费的,具有丰富的调试功能,版本控制,版本同步,适合多人开发
爬虫规则
爬虫会对网站造成骚扰,也会在一定程度上侵犯隐私权益以及商业所有权,企业一般有两种方法来限制网络爬虫
-
来源审查:如果网站的所有者具有一定的技术能力,可以判断User-Agent来进行限制,检查HTTP协议头的User-Agent域,只响应浏览器或者有好的爬虫访问
-
发布公告:Robots协议,告知所有爬虫网站的爬取策略,要求爬虫遵守
Robots协议
Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
形式: 在网站根目录下的robots.txt文件
基本语法:User-agent:* Disallow:/
# 京东的robots.txt www.jd.com/robots.txt
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
其他例子:
http://www.baidu.com/robots.txt
http://www.sina.com.cn/robots.txt
http://www.qq.com/robots.txt
http://news.qq.com/robots.txt
http://www.moe.edu.cn/robots.txt
使用
网络爬虫:自动或人工识别robot.txt,在进行内容爬取
约束性:建议但不是约束,可以违反,但是可能出事QAQ
参考资料
中国大学MOOC - Python网络爬虫与信息提取
Email:1252418308@qq.com