Python爬虫实例
使用正则表达式和爬虫
爬虫实例一:
1 2 3 4 5 6 7 8 9 10 11 12 13 | # 第好几个方法实例 import requests #先导入爬虫的库,不然调用不了爬虫的函数 import re #下面是可以正常爬取的区别,更改了User-Agent字段 headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36" } #设置头部信息,伪装浏览器 response = requests.get( "https://github.com/" , headers = headers ) #get方法访问,传入headers参数, print ( response.text ) #获取网页所有的源码内容 pattern = '<div class="(.*?)">(.*?)</div>' #正则表达式 result = re.findall(pattern = pattern, string = response.text) print (result) |
Python爬虫白名单网站:https://www.pythonanywhere.com/whitelist/
爬虫实例二:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | # 第好几个方法实例 import requests #先导入爬虫的库,不然调用不了爬虫的函数 import re #下面是可以正常爬取的区别,更改了User-Agent字段 headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36" } #设置头部信息,伪装浏览器 response = requests.get( "https://www.pythonanywhere.com/whitelist/" , headers = headers ) #get方法访问,传入headers参数, #print( response.text ) #获取网页所有的源码内容 pattern1 = '<td style="width:20ex;">(.*?)</td>' #正则表达式 # pattern2='<link rel="(.*?)">' result1 = re.findall(pattern = pattern1, string = response.text) # result2=re.findall(pattern=pattern2, string=response.text) #print(result1) # print() # print(result2) for res in result1: print (res) |
输出结果:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2016-04-09 003 CSS汇总