摘要: 由于网络速度或服务器问题,爬取网页需要时间。访问一个网页,如果长时间未响应就会返回超时 这时候需要根据自己的需要,来设置超时时间timeout 阅读全文
posted @ 2019-07-25 18:10 Peach~ 阅读(370) 评论(0) 推荐(0) 编辑
摘要: import urllib.request # urlretrieve(网址,本地路径) 直接下载网页到本地 urllib.request.urlretrieve("http://www.baidu.com","C:\\Users\\Administrator\\Desktop\\baidu.html") # urlcleanup() 清除缓存 urllib.request.urlcleanup... 阅读全文
posted @ 2019-07-25 17:47 Peach~ 阅读(161) 评论(0) 推荐(0) 编辑
摘要: # 提取豆瓣出版社信息并写入文件 import urllib.request import re date=urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8") pat='(.*?)' rsp=re.compile(pat).findall(date) fb=open("C:/U... 阅读全文
posted @ 2019-07-25 17:30 Peach~ 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 1.原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子(python自带re模块) 常见原子类型如下: a.普通字符作为原子 b.非打印字符作为原子 c.通用字符作为原子 d.原子表 2.元字符是正则表达式中具有一些特殊含义的字符,比如重复N次前面的字符等 3.模式修正符指可以在 阅读全文
posted @ 2019-07-25 16:34 Peach~ 阅读(214) 评论(0) 推荐(0) 编辑