第三次作业 - empty6city

公告

随感：

在学习学习这门课之前，因为选修课的缘故我接触过中国大学MOOC这个网址，也通过老师的介绍初步学习到了“python网络爬虫与信息提取”这门课。Python是一个广泛使用的脚本语言，其自带了urllib、urllib2等基本的库，爬虫是最基本的库；在接触“爬虫”这个名词之前，我们对这个概念的理解还是非常模糊的。网络爬虫，也叫网络蜘蛛(Web Spider)，如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的，也就是URL。也正因为学习完这门课我对爬虫的理解逐渐延申。
学完这门课之后，我觉得生活中可以用到的地方还是很多，比如：在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用来做桌面壁纸，或者用来做设计的素材。在此之前，我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样会降低图片的清晰度。通过python的这门课，就可以学到去实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地，既方便又不会降低清晰度。

通用网络爬虫又叫全网爬虫，也就是网络爬虫爬取的目标资源在全网中。这种爬虫所爬取的目标数据是巨大的，并且爬取的范围也是很大的，是一种很典型的海量数据，所以对爬取的性能要求是非常高的，主要应用于大型搜索引擎中。聚焦网络爬虫：也叫主题爬虫，是按照预先定义好的主题有选择性的进行网页抓取的一种爬虫，这种爬虫也就是我们平时所用的爬虫。增量式爬虫：这种爬虫只爬取页面更新的地方，而未改变的地方则不更新。所以大多数时候都是新页面深层网络爬虫：这种爬虫可以爬取深层页面。就是比较深层次的东西。

有一说一，确实，有时候觉得python和网站的互动还是挺有意思的，但是，有可能是自身的学习程度不够，所以在看实例的时候有些吃力，理解需要花费一点时间。这些都不算什么，这次的学习让我学到了很多，受益匪浅，特别是运用爬虫去爬取网页信息的时候让我觉得，有时候python还是挺好玩的，以后一定好好的学习相关方面的知识，让自己前进的道路多一盏明灯！

希望后面可以做得更好！

posted on 2019-10-27 14:25 empty6city 阅读(126) 评论(0) 收藏举报

刷新页面返回顶部