如何在python中使用pywebcopy克隆网页？

Python提供了Pywebcopy模块，允许我们将整个网站下载并存储到我们的机器上，包括所有图像，HTML页面和其他文件。在这个模块中，我们有一个函数，即 save_webpage（），它允许我们克隆网页。

安装 pywebcopy 模块

首先，我们必须使用以下代码在 python 环境中安装 pywebcopy 模块。

pip install pywebcopy

成功安装后，我们将得到以下输出 –

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/ Collecting pywebcopy   Downloading pywebcopy-7.0.2-py2.py3-none-any.whl (46 kB)      . . . . . . . . . . . . . . . . . . . . . . . . . .       . . . . . . . . . . . . . . . . . . . . . . . . . .       . . . . . . . . . . . . . . . . . . . . . . . . . .  Installing collected packages: pywebcopy Successfully installed pywebcopy-7.0.2

语法

以下是使用 Pywebcopy 模块 save_webpage（）函数的语法。

from pywebpage import save_webpage kwargs = {‘bypass_robots’: True, ‘project_name’:’example’} save_webpage(url,folder,**kwargs)

哪里

kwargs 是我们在下载网页时可以使用的可选关键字参数
bypass_robots是允许机器人.txt文件与网页一起下载的关键字
project_name是下载的网页的名称
save_webpage是函数
网址是网页的链接。
文件夹是我们保存下载文件的位置。

例

下面是一个示例，我们将指定网页 URL、存储文件的位置以及 pywebcopy 模块的 save_webpage（）函数的其他关键字参数，然后定义的网页将以指定的名称保存在定义的位置。

from pywebcopy import save_webpage url = 'https://www.tutorialspoint.com/' folder = 'Desktop/March 2023' kwargs = {'bypass_robots': True, 'project_name': 'sample_webpage'} save_webpage(url, folder, **kwargs) print("webpage saved in the location:",folder)

输出

当我们运行上面的代码时，将生成以下输出 -

webpage saved in the location: Desktop/March 2023

例

让我们再看一个例子——

from pywebcopy import save_webpage url = 'https://www.python.org/' folder = 'Articles/March 2023' kwargs = {'bypass_robots': False, 'project_name': 'webpage'} save_webpage(url, folder, **kwargs) print("webpage saved in the location:",folder)

输出

以下是保存网页的输出。

webpage saved in the location: Articles/March 2023

posted @ 2023-08-10 14:03 很酷的站长阅读(364) 评论(0) 收藏举报

刷新页面返回顶部

编程笔记

如何在python中使用pywebcopy克隆网页？

安装 pywebcopy 模块

语法

例

输出

例

输出

公告