2017 年 3月 30 日随笔档案 - AlinaXia

2017年3月30日

摘要：网络爬虫（Python）是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程一个通用的网络爬虫的框架如图所示：网络爬虫的基本工作流程如下： 1.首先选取一部分阅读全文

posted @ 2017-03-30 23:11 AlinaXia 阅读(242) 评论(0) 推荐(0) 编辑

网络爬虫基本原理(二)

摘要：四、更新策略互联网是实时变化的，具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种： 1.历史参考策略顾名思义，根据页面以往的历史更新数据，预测该页面未来何时会发生变化。一般来说，是通过泊松过程进行建模进行预测。 2.用户体验策略尽管搜索引擎针对于某阅读全文

posted @ 2017-03-30 23:11 AlinaXia 阅读(161) 评论(0) 推荐(0) 编辑

AlinaXia

公告