Python简单爬取网页
from urllib import request import re page=100 url="https://tieba.baidu.com/f?kw=%B6%CE%D7%D3&fr=ala0&tpl=5&dyTabStr=MCw2LDIsNCw1LDMsMSw4LDcsOQ%3D%3D"+str(page) try: headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36"} req = request.Request(url,headers=headers) resp = request.urlopen(req) content = resp.read().decode('utf-8') print(content) #定义正则 # pattern = re.compile(r'<title>(.*)</title>') #<a rel="noopener"相当于要找的东西的一个标识 #.*? 是想要的内容当中不需要的内容 #(.*?) 是需要的内容 pattern = re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>') #匹配html items = re.findall(pattern,content) for i in items: print('标题:'+i[0]+'内容:'+i[1]) # print(i) except request.URLError as e: if hasattr(e,'code'): print(e.code) if hasattr(e,'reason'): print(e.reason)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 提示词工程——AI应用必不可少的技术
· 地球OL攻略 —— 某应届生求职总结
· 字符编码:从基础到乱码解决
· SpringCloud带你走进微服务的世界