Python爬虫实例

使用正则表达式和爬虫

爬虫实例一:

1
2
3
4
5
6
7
8
9
10
11
12
13
# 第好几个方法实例 
import requests #先导入爬虫的库,不然调用不了爬虫的函数
import re
   
#下面是可以正常爬取的区别,更改了User-Agent字段  
headers =
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36" 
}#设置头部信息,伪装浏览器 
response = requests.get( "https://github.com/" , headers=headers )  #get方法访问,传入headers参数, 
print( response.text )  #获取网页所有的源码内容
pattern='<div class="(.*?)">(.*?)</div>'      #正则表达式
result=re.findall(pattern=pattern, string=response.text)
print(result)

  Python爬虫白名单网站:https://www.pythonanywhere.com/whitelist/

爬虫实例二:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 第好几个方法实例 
import requests #先导入爬虫的库,不然调用不了爬虫的函数
import re
   
#下面是可以正常爬取的区别,更改了User-Agent字段  
headers =
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36" 
}#设置头部信息,伪装浏览器 
response = requests.get( "https://www.pythonanywhere.com/whitelist/" , headers=headers )  #get方法访问,传入headers参数, 
#print( response.text )  #获取网页所有的源码内容
pattern1='<td style="width:20ex;">(.*?)</td>'      #正则表达式
# pattern2='<link rel="(.*?)">'
result1=re.findall(pattern=pattern1, string=response.text)
# result2=re.findall(pattern=pattern2, string=response.text)
#print(result1)
# print()
# print(result2)
for res in result1:
    print(res)

 输出结果:

posted @   leagueandlegends  阅读(104)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2016-04-09 003 CSS汇总
点击右上角即可分享
微信分享提示