2017年11月28日
摘要: 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。 我们利用了 urlopen方法访问了一个不存在的网址,运行结果如下: 它说明了错误代号是11004, 阅读全文
posted @ 2017-11-28 20:29 小学森也要学编程 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 拆分这些请求,我们只看一第一个请求,你可以看到,有个Request URL,还有headers,下面便是response 阅读全文
posted @ 2017-11-28 20:16 小学森也要学编程 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 1)中文网站爬取下来的内容中文显示乱码 Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。 2)使用raw_ 阅读全文
posted @ 2017-11-28 19:14 小学森也要学编程 阅读(193) 评论(0) 推荐(0) 编辑