摘要: urllib库 库是 中一个最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送请求,并且可以保存服务器发送的数据。 urlopen函数 urlretrieve函数 说明:该函数可以方便地将网页上的一个文件保存到本地。 下载百度首页: urlencode函数 url中包含中文或者其他字符,当 阅读全文
posted @ 2019-07-11 22:16 Atomyzd 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫概述 什么是网络爬虫? 通俗理解:爬虫是一个模拟人类请求网站行为的程序,可以自动请求网页,并抓取下来,然后用一定的规则提取有价值的数据。 通用爬虫和聚焦爬虫 通用爬虫 是搜索引擎抓取系统的重要组成部分。主要是将互联网的内容下载到本地,形成一个互联网内容的镜像备份。 聚焦爬虫 是面向特定需求的 阅读全文
posted @ 2019-07-11 22:15 Atomyzd 阅读(95) 评论(0) 推荐(0) 编辑