empty6city

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随感:

在学习学习这门课之前,因为选修课的缘故我接触过中国大学MOOC这个网址,也通过老师的介绍初步学习到了“python网络爬虫与信息提取”这门课。Python是一个广泛使用的脚本语言,其自带了urlliburllib2等基本的库,爬虫是最基本的库;在接触“爬虫”这个名词之前,我们对这个概念的理解还是非常模糊的。网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。也正因为学习完这门课我对爬虫的理解逐渐延申。
  学完这门课之后,我觉得生活中可以用到的地方还是很多,比如:在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用来做桌面壁纸,或者用来做设计的素材。在此之前,我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样会降低图片的清晰度。通过python的这门课,就可以学到去实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地,既方便又不会降低清晰度。

通用网络爬虫又叫全网爬虫,也就是网络爬虫爬取的目标资源在全网中。这种爬虫所爬取的目标数据是巨大的,并且爬取的范围也是很大的,是一种很典型的海量数据,所以对爬取的性能要求是非常高的,主要应用于大型搜索引擎中。   聚焦网络爬虫:也叫主题爬虫,是按照预先定义好的主题有选择性的进行网页抓取的一种爬虫,这种爬虫也就是我们平时所用的爬虫。    增量式爬虫:这种爬虫只爬取页面更新的地方,而未改变的地方则不更新。所以大多数时候都是新页面    深层网络爬虫:这种爬虫可以爬取深层页面。就是比较深层次的东西。

 有一说一,确实,有时候觉得python和网站的互动还是挺有意思的,但是,有可能是自身的学习程度不够,所以在看实例的时候有些吃力,理解需要花费一点时间。这些都不算什么,这次的学习让我学到了很多,受益匪浅,特别是运用爬虫去爬取网页信息的时候让我觉得,有时候python还是挺好玩的,以后一定好好的学习相关方面的知识,让自己前进的道路多一盏明灯!

希望后面可以做得更好!

posted on 2019-10-27 14:25  empty6city  阅读(119)  评论(0编辑  收藏  举报