Python简单爬取网页

复制代码

from urllib import request
import re

page=100
url="https://tieba.baidu.com/f?kw=%B6%CE%D7%D3&fr=ala0&tpl=5&dyTabStr=MCw2LDIsNCw1LDMsMSw4LDcsOQ%3D%3D"+str(page)
try:
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36"}
    req = request.Request(url,headers=headers)
    resp = request.urlopen(req)
    content = resp.read().decode('utf-8')
    print(content)
    #定义正则
    # pattern = re.compile(r'<title>(.*)</title>')
    #<a rel="noopener"相当于要找的东西的一个标识
    #.*? 是想要的内容当中不需要的内容
    #(.*?) 是需要的内容
    pattern = re.compile(r'<a rel="noopener".*?title=(.*?)\s.*?>(.*?)</a>')
    #匹配html
    items = re.findall(pattern,content)
    for i in items:
        print('标题:'+i[0]+'内容:'+i[1])
        # print(i)
except request.URLError as e:
   if hasattr(e,'code'):
       print(e.code)
   if hasattr(e,'reason'):
       print(e.reason)

复制代码

posted @ 2022-03-20 14:31 小酒馆里的清茶阅读(451) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Python爬虫基础

· Python爬虫-xpath

· 使用urllib爬取百度搜索html

· python之简单页面爬取

· python爬虫学习——urllib库

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 提示词工程——AI应用必不可少的技术
· 地球OL攻略 —— 某应届生求职总结
· 字符编码：从基础到乱码解决
· SpringCloud带你走进微服务的世界

公告

昵称：小酒馆里的清茶
园龄： 3年
粉丝： 4
关注： 4

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜