摘要: 为什么要学习爬虫? 学习爬虫,可以私人订制一个搜索引擎。 大数据时代,要进行数据分析,首先要有数据源。 对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。 什么是网络爬虫? 模拟客户端发送网络请求,接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序。 只要是客户端(浏览器)能做的的事情,原则上,爬虫都能做。意思就是,只要人类能够访问的网页,爬虫在具备铜等资源的情况下就一定可以... 阅读全文
posted @ 2018-05-19 20:32 zxf123 阅读(2340) 评论(0) 推荐(0) 编辑
摘要: 需求 万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫。 原理 传统爬虫从一个或若干初始网页的URL开始,获... 阅读全文
posted @ 2018-05-19 16:54 zxf123 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 进程和线程究竟是什么东西?传统网络服务模型是如何工作的?协程和线程的关系和区别有哪些?IO过程在什么时间发生? 一、上下文切换技术 简述 在进一步之前,让我们先回顾一下各种上下文切换技术。 不过首先说明一点术语。当我们说“上下文”的时候,指的是程序在执行中的一个状态。通常我们会用调用栈来表示这个状态——栈记载了每个调用层级执行到哪里,还有执行时的环境情况等所有有关的信息。 当我们说“上下文... 阅读全文
posted @ 2018-05-19 09:54 zxf123 阅读(278) 评论(0) 推荐(0) 编辑