摘要: 1用requests进行网页请求与urlopen差不多,这里省略不说 2抓取网页的学习 import requests import re headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWeb 阅读全文
posted @ 2017-09-15 20:18 戴怪兽 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1Robots协议 Robots协议告诉了搜索引擎和爬虫那些页面可以抓取,那些不可以,通常是存放在robots.txt文件里面,位于网站的根目录下 robots.txt中内容的示范: User-agent:* //表示了搜索爬虫的名称,*表示对任何爬虫都有效 Disallow:/ //表示了不允许抓 阅读全文
posted @ 2017-09-15 12:39 戴怪兽 阅读(2188) 评论(0) 推荐(0) 编辑