计算机网络-chapter1-概述
学习网络爬虫不仅要学习爬虫技术,关键的是学习计算机网络原理和技术,只有这样才能才在爬虫上走的更好,学的更扎实,更牢固.
/**********************************************************概述****************************************************************/
网络能适应爬虫的原因是:网络具有共享性和连通性. 连通就是网络上的事物互相连通可达. 共享是指资源共享,如文件共享,软硬件资源共享等.
21世纪就是一个数字化,网络化,信息化的时代. 这是一个以网络为核心的信息时代.
早期有三大网, 电信网,有线电视网,计算机网络.. 这就是我们熟知的! 之前三大网都有自己的"管辖地", 现在似乎计算机网络已经融合了前两种网络了.这就是"三网融合".
Internet 中文译为互联网. 即全球计算机网络互联组成的超大网络. interner只是多个计算机网路了组成的小型"互连网络".
"互联网+"指的是:互联网+传统行业 指的是用互联网技术和环境跟传统行业相融合,以创造更大的社会价值,促进经济发展.
/***********************************************互联网概述*****************************************************/
计算机网络:
即网络. 由若干结点和连接这些结点的链路组成. 它可以是简单单一的网络,也可以是多个网络组成的较大的网络(互连网)或者是全球性的互联网. 它们都可以称为计算机网络.
互连网构成:
显然,把多个计算机网络互相连接就形成了互连网. 而全球性的互连网显然就是互联网了.
互联网发展三阶段:
1.单一的arpanet网 向互连网发展的过程.
arpanet最初只是单一的计算机网络,其中的主机都可以直接通过就近的交换机进行通信.不需要跨网络通信.后来就研究出了网络互连技术,这个互连网是互联网的雏形! 1983年TCP/IP协议成为了标准协议 后,全球计算机就可以通过这一协议通信了,所以就此开始了互联网的组建.
2.三级结构的互联网.
主干网,地区网,校园网
3.多层次ISP互联网
ISP即互联网服务提供商.
ISP有自己的联网设备,通信线路等,这就为用户提供互联网服务提供了环境.
ISP的用户有ISP给的IP地址,借此就可以上网,寻找用户想要的.
显然,ISP本身的IP地址是向互联网管理机构租赁的IP地址,然后再租给用户.
ISP分多个层次! 主干ISP-->地区ISP-->本地ISP.... 这就是多层次的ISP结构.
其中本地ISP 可以直接给端用户提供服务.或者再向下分岔.
用户之间的通信是由端的源点开始,层层利用上层ISP提供的软硬件资源(软件,链路,路由器等) 进行传输,之后再层层向下传输到端的末点.
通常为了减缓ISP的通信负担,减少网络通信量,在某些ISP结点之间建立"互联网交换点"(IXP),以减小上层ISP的通信量. ixp允许ISP结点之间直接通信,不经过上层ISP结点.这样就把上层ISP空闲下来.
图片:
欧洲原子核研究中心开发的www协议大大扩展和丰富了互联网.使得互联网被普通人所接受.
/***************************************************互联网组成***************************************************************/
组成:
边缘部分------联网的主机. 在这里提供通信和资源共享
核心部分------大量网络和路由器. 这里提供端与端之间的连通性.
边缘部分:
就是由计算机组成的. 它要做的就是端与端之间的信息交流. 这种交流方式有两种:1.客户/服务器方式 2.p2p(peer to peer )方式,即对等连接的通信方式
1.客户服务器方式
请求端负责服务请求 服务器端负责服务提供
其实端与端之间的通信就是端与端之间的应用进程之间的通信.
客户端有客户端进程,它负责向服务器端发出请求. 服务器端在系统开启时就开始了服务器进程运转,在等到有客户端发出的服务请求后就向它提供服务.
客户端时服务请求,主动地位. 服务器端时被动的接受服务申请,进而对其服务.
它们之间的通信是双方的,互相可以发消息
2.对等连接
对等连接的端必须双方都运行对等连接的软件,这样才能互相通信.
双方进行的是对等的通信.互相共享自己的数据,对方可以尽心读取并存储等.
自己既是客户端也是服务器端.(特殊的客户/服务器方式)
互联网核心:
核心部分就是用来进行提供主机之间的连通性的.
网络核心的路由器...很重要.它实现分组交换 任务是:转发分组.
电路交换:
电信网为了在能够实现通信,在端与端之间加入了交换机. 拨号时会建立一条通信链路(物理),通话时链路被占用,结束通话时,链路释放.
分组交换:
分组交换是一种策略,即对一份报文分割,分成多份之后再分别转发出去.
每一份分组都有两部分.头部,数据部分. 这样从原来的报文中分割出来的分组才能知道目的地在哪.
路由器:
互联网上的路由器之间通过网络互连,这样就形成了一个拓扑图形.至于怎样找到目的地,这是后话了.
有一点需要注意,分组在转发时不用建立连接,且只有转发的分组在链路上传输时才占用通信链路.
报文交换:
报文每到一个地方,就存下来,以待之后转发到下一地址.
/*********************************************计算机网络类别*******************************************/
作用范围:
广域网
城域网
局域网 校园网和企业网就是多个局域网互连的结果
个人区域网
使用者:
公用网
专用网
把用户接入互联网:
接入网 这只是个概念,,具体可通过多种接入网技术
/*****************************************计算机网络性能指标************************************/
速率:
即数据的传送速率. 单位是bps 即bit per second
带宽:
原意:信号的频带宽度,如带宽为3.1kHz,表示频率的最小最大跨度为3.1kHz.
网络中:信道的最高数据率,bps 表征信道的传输信息的能力.
两种都是一个意思,差不多.
吞吐量:
表示单位时间内通过某个网络的实际数据量.
时延:
发送时延:
主机或路由器发送数据的用时.
传播时延:
数据在信道中传播的时间.只与信道和电磁波传播速率有关
处理时延:
主机或路由器处理数据的用时
排队时延:
分组转发给路由器需要经过排队,排队时间就是排队时延. 这取决于当时的网络质量,网络通畅时,它就小;反之,就大;
时延带宽积:
就是传播时延*带宽的结果! 也就是num=传播时延*信道的最高数据率 设想一个二进制位从线的一端传到另一端,他传送是经过了一个传播时延,这个时间这个信道可以源源不断的再在它后边传送数据
因此时延带宽积就相当于有num个bit组成的长为信道长度的bit流. 即以bit为单位的链路长度.
往返时间RTT:
即从a发送数据到b,再接收到b对它的响应所经过的时间. 往返时间可不是传播时延的二倍,也不是处理时延的二倍或者排队时延之类的.而是综合了它们所有.(不包括发送时延)
利用率:
信道利用率: 信道有多少时间比例是被利用的
网络利用率: 全网信道利用率的加权平均值
为啥要说利用率呢? 主要是为了研究网络效率的!
当网络利用率高,说明信道繁忙,这通常意味着高延迟! 当利用率低,又意味着信道空闲,网络效率低,浪费.
计算机网络的设计与分析要考虑的地方:
费用
质量
标准化
可靠
可扩展可升级
易管理维护
/******************************************计算机网络的层次划分**********************************************************/
七层协议栈
五层协议栈
等等.