第3次作业

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

新学期，在上Python高级应用这门课时，老师给了我们一个非常实用的自学网站——中国大学MOOC，建议我们尝试网上学习并且向我们推荐一门课程——Python网络爬虫与信息提取，这门课程名叫嵩天，是北京理工大学的一名副教授。通过学习他的所教课程令我对Python有了更加深刻的理解。在一开始，刚刚接触到“爬虫”这个名词的我充满了疑惑，不知道是什么东西，通过这几周的学习之后对于“爬虫”有了新的认识和感受。网络爬虫又被称为网页蜘蛛，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。这门课主要介绍Python计算生态中最优秀的网络数据爬取和解析技术，具体讲授了构建网络爬虫功能的两条重要技术路线：requests-bs4-re和Scrapy。

在第一周的课程中我学习到了Requests库一共有七个主要办法requests.request()、requests.get()、requests.head()、requests.post()、requests.put()requests.patch()requests.delete()，我们要了解它们的意思，例如requests.request()表示的是构造一个请求，支撑下一个方法的基础方法。当然除了了解它的七个方法以外，我们Requests库的七个异常分别表示的意义，如requests.ConnectionError表示的是网络连接错误异常，如DNS查询失败、拒绝连接等。

在后面的学习中，我还回顾并新学到一些专业单词的意思。URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。HTTP协议的URL示例是使用超级文本传输协议HTTP，提供超级文本信息服务的资源。文件的URL用URL表示文件时，file表示，后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。BeautifulSoup的导入时用服务器方式用 from bs4 import BeautifulSoup代码进入，常用BeautifulSoup有四个，但是每一个解释器的使用条件不同，BeautifulSoup类的基本元素有五个。常见的信息标记提取直接搜素<>.find_all() <>.find等方法，在这门课中教授还给我们运用实例代码讲了同时存在的扩展方法。crapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。还有许多我就不一一列举了。

我深刻的认识到Python对于我们学习和工作都起到了很重要的作用，大大的降低了我们的时间，更快更好的对信息进行提取。接下来我会继续对Python网络爬虫与信息提取这门课程的学习，跟随老师的步伐，加深对知识点的学习与巩固，相信未来的某一天会对我们产生很大的帮助。

posted on 2019-10-28 18:47 黄立锴阅读(158) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

RoyalLee

第3次作业

导航

公告