爬虫一:什么是网络爬虫

大家在做在做资料分析时依靠资料库资源,但是如果说没有办法从资料库取得资料的时候怎么办,我们可能采用另外一种方法:从网络上面取得相关资料,然后透过这样的资料做整理,在对资料做进一步的分析,我就可以从中间取得一些有用的资讯,作为你分析时候的依据,我就可以拿这样的资料就可以比较一些网站,或者搜集一些文字,言论,还有一些人物的资料, 或者是一个品牌网民对它的评价,到底是好的多还是坏的多 。

首先我们怎么样获取网页内容,我们通过浏览器使用get或post的方法想服务器发送一个请求:

浏览器------- request(get/post index.html HTTP/1.1)--->服务器

然后服务器会做出相应的回应,它会把相应的html或css原始码回传回来,经过浏览器转译以后,变成漂亮清晰的页面:

浏览器<------- response( HTTP/1.1 200 OK)---服务器

对原始码分析整理后,就会把有用的资讯整理出来,对资料做进一步分析 

posted @ 2017-02-14 02:05  王喜山  阅读(220)  评论(0编辑  收藏  举报