开始学习Python爬虫-简单的爬取网站和简单的防反爬

今天开始学习Python爬虫的知识,学习了最基础的爬取网页的知识。我爬取了两个网站作为测试，一个是测试网站，

一个就是豆瓣网的top250的网页，爬取成功了。

我们首先需要用到import requests

这是爬取网页的最基本方法：

import requests

response = requests.get("http://books.toscrape.com/")

if response.ok:
    print("请求成功")
    print(response.text)
else:
    print("请求失败")

对于有简单反爬机制的网站，我们可以用简单的方式伪装一下，让这些网站认为我们是浏览器访问的

比如豆瓣，我们可以先打开随便一个网站，点击f12，再点击NetWork，然后刷新一下，选择Request Headers，

找到User-Agent这一行，复制：

直接用百度的：

我们把上面的东西复制下来：

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"
}

爬取豆瓣网的python代码：

import requests
from bs4 import BeautifulSoup
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"
}

content = requests.get("https://movie.douban.com/top250",headers=headers).text
soup = BeautifulSoup(content, "html.parser")
print(soup.p)

posted @ 2023-03-29 21:17 冰稀饭Aurora 阅读(12) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Loading

Aurora-RenShuoyang

开始学习Python爬虫-简单的爬取网站和简单的防反爬

公告