python爬虫基础（一）基础信息

相关内容：python爬虫知识清单【更】

基础知识

request库：自动爬取HTML页面。自动网络请求提交
robots.txt：网络爬虫排除标准
Beautiful soup：解析HTML页面
RE：正则表达式提取重要信息
scrapy：网络爬虫框架

开发工具选择

文本工具类IDE

IDLE：python自带的常用入门工具
Sublime Text：√

集成工具类IDE

PyCharm：简单，集成度高，适合复杂功能 √
Anaconda：开源免费，科学计算
wing：收费的，具有丰富的调试功能，版本控制，版本同步，适合多人开发

爬虫规则

爬虫会对网站造成骚扰，也会在一定程度上侵犯隐私权益以及商业所有权，企业一般有两种方法来限制网络爬虫

来源审查：如果网站的所有者具有一定的技术能力，可以判断User-Agent来进行限制，检查HTTP协议头的User-Agent域，只响应浏览器或者有好的爬虫访问
发布公告：Robots协议，告知所有爬虫网站的爬取策略，要求爬虫遵守

Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行

形式：在网站根目录下的robots.txt文件

基本语法：User-agent：* Disallow：/

# 京东的robots.txt www.jd.com/robots.txt

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

其他例子：
http://www.baidu.com/robots.txt
http://www.sina.com.cn/robots.txt
http://www.qq.com/robots.txt
http://news.qq.com/robots.txt
http://www.moe.edu.cn/robots.txt

使用

网络爬虫：自动或人工识别robot.txt，在进行内容爬取

约束性：建议但不是约束，可以违反，但是可能出事QAQ

参考资料

中国大学MOOC - Python网络爬虫与信息提取

posted @ 2020-04-28 16:54 陌良阅读(179) 评论(0) 收藏举报

刷新页面返回顶部

suata