Python --- 实战一

提取网页源代码

import urllib.request
print(urllib.request.urlopen("http://edu.csdn.net").read())

快捷键

Ctrl+F 搜索

自动提取课程页面的QQ群

import urllib.request
import re
data = urllib.request.urlopen("网址").read().decode("utf-8")
pat = "<em>QQ:(\d*?)</em>"
print(re.compile(pat).findall(data))

爬取书名

这个没爬到现在，还要伪装一下~

import urllib.request
import re
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode()
pat = '<div class="name">(.*?)</div>'
res = re.compile(pat),findall(data)
fh = open("F://giao//书名大全","w")
for i in range(0,len(res)):
	print(res[i])
	fh.write(res[i]+"\n")
fh.close()

posted @ 2020-07-11 19:20 chstor 阅读(113) 评论(0) 收藏举报

刷新页面返回顶部