python爬虫

1 导入url模块

from urllib.request import urlopen

2 打开url

指定url
url = "http://www.baidu.com"
webpage_request = urlopen(url)

3 解码
print(webpage_request.read().decode("utf-8"))

数据解析

1 re解析（正则表达式）

导入re模块

import re

list = re.findall(r"\d{11}","电话号码： 18963157596;家庭电话: 17530159745")
print(result)

匹配的是字符中所有的内容，返回的是迭代器，从迭代器拿到内容需要用.group()
it = re.finditer(r"\d{11}","电话号码： 18963157596;家庭电话: 17530159745")

for i in it:
print(i.group())

# search,匹配到一个结果直接返回，拿到数据需要用.group()

yz = re.search(r"\d{11}","电话号码： 18963157596;家庭电话: 17530159745")
print(yz.group())

# match 从头开始匹配
rr = re.match(r"\d{11}","电话号码： 18963157596;家庭电话: 17530159745")
print(rr.group())

正则表达式预加载

说明：strip的作用去除前面的空格，顶格显示

2 bs4解析（beautifulsoup模块）

这个模块只有两个函数 find findall

爬取图片

3 xpath解析

posted @ 2022-09-20 13:45 woaibaobei 阅读(44) 评论(0) 收藏举报

刷新页面返回顶部