爬取百度页面代码写入到文件+web请求过程解析

一、爬取百度页面代码写入到文件

代码示例：

<code-pre class="code-pre" id="pre-rPnFxG"><code-line class="line-numbers-rows"></code-line>from urllib.request import urlopen    #导入urlopen包
<code-line class="line-numbers-rows"></code-line>
<code-line class="line-numbers-rows"></code-line>url="http://www.baidu.com"            #需要爬取网页的网址
<code-line class="line-numbers-rows"></code-line>resp=urlopen(url)
<code-line class="line-numbers-rows"></code-line>with open("mybaidu.html",mode="w",encoding="utf-8") as f:    #encoding="utf-8"防乱码
<code-line class="line-numbers-rows"></code-line>    f.write(resp.read().decode())#将爬取到的代码写入到文件中，decode()用于解码，防止中文乱码
<code-line class="line-numbers-rows"></code-line>    print("爬取完成！")
<code-line class="line-numbers-rows"></code-line>
</code-pre>

二、　web请求过程解析

1.服务器渲染：在服务器直接将数据和html整合在一起，特点为在html源代码中可以看到数据。
例：在百度中搜索“李白”，得到的页面及解析如下：

很明显在html源代码中可以看到数据。


2.客户端渲染：客户端发送两次请求，第一次请求得到html代码，第二次得到数据，在客户端中将二者整合呈现给用户。
       特点：在html源代码中无法看到数据
例：查看豆瓣分类排行榜页面，其预览中并没有展示数据，由此可见其源代码中没有数据。

在下面的请求中可以看到数据：

__EOF__

本文作者：CherriesOvO
本文链接：https://www.cnblogs.com/zyj3955/p/15012457.html
关于博主：评论和私信会在第一时间回复。或者直接私信我。
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主：如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力！

posted @ 2021-07-14 18:50 CherriesOvO 阅读(373) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

历史上的今天：
2020-07-14 学习Java的第九天

公告

爬取百度页面代码写入到文件+web请求过程解析

发表于 2021-07-14 18:50阅读次数：373评论次数：0

每日日报

关注

跳至底部

昵称： CherriesOvO
园龄： 4年8个月
粉丝： 40
关注： 4

+加关注

薛定谔的猫

爬取百度页面代码写入到文件+web请求过程解析

一、爬取百度页面代码写入到文件

二、　web请求过程解析

公告

CherriesOvO

爬取百度页面代码写入到文件+web请求过程解析

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

一、爬取百度页面代码写入到文件

二、 web请求过程解析

公告

CherriesOvO

爬取百度页面代码写入到文件+web请求过程解析

搜索

常用链接

随笔档案

二、　web请求过程解析