2021 年 6月 30 日随笔档案 - chuyaoxin

2021年6月30日

摘要：通用网络爬虫的实现原理及过程如下图所示：通用网络爬虫的实现原理：（1）获取初始的URL。初始的URL地址可以人为地指定，也可以由用户指定的某个或某几个初始爬取网页决定。（2）根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后，先爬取当前URL地址中的网页信息，然后解析网页信息内阅读全文

posted @ 2021-06-30 21:42 chuyaoxin 阅读(3823) 评论(0) 推荐(0) 编辑

爬虫的分类

摘要：爬虫可分为通用网络爬虫、聚焦爬虫、增量式网络爬虫和深层网络爬虫。通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引。阅读全文

posted @ 2021-06-30 20:48 chuyaoxin 阅读(885) 评论(0) 推荐(0) 编辑

笛在月明楼

路虽远，行则将至。

公告