Python简单爬取网页

复制代码
from urllib import request
import re

page=100
url="https://tieba.baidu.com/f?kw=%B6%CE%D7%D3&fr=ala0&tpl=5&dyTabStr=MCw2LDIsNCw1LDMsMSw4LDcsOQ%3D%3D"+str(page)
try:
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36"}
    req = request.Request(url,headers=headers)
    resp = request.urlopen(req)
    content = resp.read().decode('utf-8')
    print(content)
    #定义正则
    # pattern = re.compile(r'<title>(.*)</title>')
    #<a rel="noopener"相当于要找的东西的一个标识
    #.*? 是想要的内容当中不需要的内容
    #(.*?) 是需要的内容
    pattern = re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')
    #匹配html
    items = re.findall(pattern,content)
    for i in items:
        print('标题:'+i[0]+'内容:'+i[1])
        # print(i)
except request.URLError as e:
   if hasattr(e,'code'):
       print(e.code)
   if hasattr(e,'reason'):
       print(e.reason)
复制代码

 

posted @   小酒馆里的清茶  阅读(451)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 提示词工程——AI应用必不可少的技术
· 地球OL攻略 —— 某应届生求职总结
· 字符编码:从基础到乱码解决
· SpringCloud带你走进微服务的世界
点击右上角即可分享
微信分享提示