Python --- 实战一
提取网页源代码
import urllib.request
print(urllib.request.urlopen("http://edu.csdn.net").read())
快捷键
Ctrl+F 搜索
自动提取课程页面的QQ群
import urllib.request
import re
data = urllib.request.urlopen("网址").read().decode("utf-8")
pat = "<em>QQ:(\d*?)</em>"
print(re.compile(pat).findall(data))
爬取书名
这个没爬到现在,还要伪装一下~
import urllib.request
import re
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode()
pat = '<div class="name">(.*?)</div>'
res = re.compile(pat),findall(data)
fh = open("F://giao//书名大全","w")
for i in range(0,len(res)):
print(res[i])
fh.write(res[i]+"\n")
fh.close()