2017 年 9月 15 日随笔档案 - 戴怪兽

2017年9月15日

摘要： 1用requests进行网页请求与urlopen差不多，这里省略不说 2抓取网页的学习 import requests import re headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWeb 阅读全文

posted @ 2017-09-15 20:18 戴怪兽阅读(349) 评论(0) 推荐(0) 编辑

python3 爬虫5--分析Robots协议

摘要： 1Robots协议 Robots协议告诉了搜索引擎和爬虫那些页面可以抓取，那些不可以，通常是存放在robots.txt文件里面，位于网站的根目录下 robots.txt中内容的示范： User-agent:* //表示了搜索爬虫的名称，*表示对任何爬虫都有效 Disallow:/ //表示了不允许抓阅读全文

posted @ 2017-09-15 12:39 戴怪兽阅读(2196) 评论(0) 推荐(0) 编辑

戴怪兽

公告