摘要: 爬虫的异常处理: • 网页在服务器上不存在(或者获取页面的时候出现错误) • 服务器不存在 第一种异常发生时,程序会返回 HTTP 错误。HTTP 错误可能是“404 Page Not Found”“500 Internal Server Error”等。所有类似情形,urlopen函数都会抛出“H 阅读全文
posted @ 2017-08-14 09:53 王先生是胖子 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 基本操作: url指定内容获取到: -发送http请求, -基于正则表达式获取内容 import requests from bs4 import BeautifulSoup response = requests.get("url") response.text obj = beautifulso 阅读全文
posted @ 2017-08-14 09:50 王先生是胖子 阅读(368) 评论(0) 推荐(0) 编辑