2019 年 7月 25 日随笔档案 - Peach~

2019年7月25日

摘要：由于网络速度或服务器问题，爬取网页需要时间。访问一个网页，如果长时间未响应就会返回超时这时候需要根据自己的需要，来设置超时时间timeout 阅读全文

posted @ 2019-07-25 18:10 Peach~ 阅读(374) 评论(0) 推荐(0) 编辑

摘要： import urllib.request # urlretrieve(网址，本地路径) 直接下载网页到本地 urllib.request.urlretrieve("http://www.baidu.com","C:\\Users\\Administrator\\Desktop\\baidu.html") # urlcleanup() 清除缓存 urllib.request.urlcleanup... 阅读全文

posted @ 2019-07-25 17:47 Peach~ 阅读(164) 评论(0) 推荐(0) 编辑

提取豆瓣出版社信息并写入文件

摘要： # 提取豆瓣出版社信息并写入文件 import urllib.request import re date=urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8") pat='(.*?)' rsp=re.compile(pat).findall(date) fb=open("C:/U... 阅读全文

posted @ 2019-07-25 17:30 Peach~ 阅读(226) 评论(0) 推荐(0) 编辑

正则表达式

摘要： 1.原子是正则表达式中最基本的组成单位，每个正则表达式中至少要包含一个原子（python自带re模块）常见原子类型如下： a.普通字符作为原子 b.非打印字符作为原子 c.通用字符作为原子 d.原子表 2.元字符是正则表达式中具有一些特殊含义的字符，比如重复N次前面的字符等 3.模式修正符指可以在阅读全文

posted @ 2019-07-25 16:34 Peach~ 阅读(233) 评论(0) 推荐(0) 编辑

Peach~

公告