上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 55 下一页
摘要: (1) 通用网络爬虫:也称全网爬虫,顾名思义,就是爬取的目标是互联网中的所有数据资源,主要应用于大型搜索引擎中(2) 聚焦网络爬虫:也称主题网络爬虫,按照预先定义好的主题有选择地进行网页爬取,爬取特定的资源(3) 增量式网络爬虫:即第二次爬取相同网页时,只爬取内容发生变化的数据,对于没有发生变化的不 阅读全文
posted @ 2019-03-14 15:54 孔雀东南飞 阅读(818) 评论(0) 推荐(0) 编辑
摘要: (1) 网络爬虫由控制节点 、爬虫节点 、资源库组成(2) 控制节点,也就是爬虫节点的中央控制器,负责调用爬虫节点进行爬取(3) 爬虫节点会按照相关的算法,对网页进行具体的爬取,爬取后的结果会存储在资源库中 阅读全文
posted @ 2019-03-14 15:50 孔雀东南飞 阅读(786) 评论(0) 推荐(0) 编辑
摘要: (1) 学习网络爬虫,可以私人定制一个搜索引擎,更好地理解数据采集原理(2) 为大数据分析提供更多高质量的数据源,获取更多有价值的信息(3) 可以更深层次地理解搜索引擎爬虫的工作原理,从而可以更好地进行搜索引擎优化(4) 从就业角度来说,爬虫工程师也是紧缺的人才,学习网络爬虫对就业来说非常有利 阅读全文
posted @ 2019-03-14 15:49 孔雀东南飞 阅读(669) 评论(0) 推荐(0) 编辑
摘要: (1) 网络爬虫又称网络蜘蛛,可以自动化浏览网络中的信息,进行互联网信息的自动检索(2) 搜索引擎会在海量的互联网信息中爬取优质信息并收录,当用户在搜索引擎上检索对应关键词时,会从收录的网页中按照一定的算法或排名规则呈现给用户(3) 大数据也离不开网络爬虫,需要使用网络爬虫去一些比较大型的站点爬取数 阅读全文
posted @ 2019-03-14 15:48 孔雀东南飞 阅读(919) 评论(0) 推荐(0) 编辑
摘要: 可以使用两种方式安装 Python3,一种是直接去官网下载安装包,然后进行安装即可;另一种是通过安装 Anaconda 来安装 Python3, Anaconda 提供了 Python 的科学计算环境,里面自带了 Python 以及常用的库,安装好之后,Python3 的环境就配置好了,推荐用这种方 阅读全文
posted @ 2019-03-14 15:43 孔雀东南飞 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 如下,分别安装 Python3 、pip3 、Ipython3: 阅读全文
posted @ 2019-03-14 15:41 孔雀东南飞 阅读(165) 评论(0) 推荐(0) 编辑
摘要: HTTP 代理: (1) 如果我们一直用同一个IP去爬取同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来爬取,代理实际上指的就是代理服务器(2) 当我们使用代理IP爬取时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面: 阅读全文
posted @ 2019-03-14 14:26 孔雀东南飞 阅读(387) 评论(0) 推荐(1) 编辑
摘要: 简单来说,我们访问每一个互联网页面,都是通过 HTTP 协议进行的,而 HTTP 协议是一个无状态协议,所谓的无状态协议即无法维持会话之间的状态。比如,仅使用 HTTP 协议的话,我们登录一个网站的时候,假如登录成功了,但是当我们访问该网站的其他网页的时候,该登录状态则会消失,此时还需要再登录一次, 阅读全文
posted @ 2019-03-14 14:23 孔雀东南飞 阅读(116) 评论(0) 推荐(1) 编辑
摘要: (1) 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序(2) 使用 Python 爬取网页 > 使用【正则表达式 | CSS 选择器 | XPath 选择器】提取信息 > 使用数据库保存提取的信息(3) 有时候,我们用 Python 爬取网页得到的源代码和浏览器中看到的不一样,如下,浏览器会 阅读全文
posted @ 2019-03-14 14:22 孔雀东南飞 阅读(183) 评论(0) 推荐(1) 编辑
摘要: 我们知道网页由一个个节点组成,那么我们可以使用 CSS 选择器来定位节点: (1) 如下,如果我们想选择 id 为 container 的节点,用 CSS 选择器表示为:#container(2) 如下,如果我们想选择 class 为 wrapper 的节点,用 CSS 选择器表示为:.wrappe 阅读全文
posted @ 2019-03-14 14:21 孔雀东南飞 阅读(259) 评论(0) 推荐(1) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 55 下一页