python爬虫
1 导入url模块
from urllib.request import urlopen
2 打开url
指定url
url = "http://www.baidu.com"
webpage_request = urlopen(url)
3 解码
print(webpage_request.read().decode("utf-8"))
数据解析
1 re解析(正则表达式)
导入re模块
import re
list = re.findall(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")
print(result)
匹配的是字符中所有的内容,返回的是迭代器,从迭代器拿到内容需要用.group()
it = re.finditer(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")
for i in it:
print(i.group())
# search,匹配到一个结果直接返回,拿到数据需要用.group()
yz = re.search(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")
print(yz.group())
# match 从头开始匹配
rr = re.match(r"\d{11}","电话号码: 18963157596;家庭电话: 17530159745")
print(rr.group())
正则表达式预加载
说明:strip的作用去除前面的空格,顶格显示
2 bs4解析 (beautifulsoup模块)
这个模块只有两个函数 find findall
爬取图片
3 xpath解析
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义