第3次作业

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

新学期,在上Python高级应用这门课时,老师给了我们一个非常实用的自学网站——中国大学MOOC,建议我们尝试网上学习并且向我们推荐一门课程——Python网络爬虫与信息提取,这门课程名叫嵩天,是北京理工大学的一名副教授。通过学习他的所教课程令我对Python有了更加深刻的理解。在一开始,刚刚接触到“爬虫”这个名词的我充满了疑惑,不知道是什么东西,通过这几周的学习之后对于“爬虫”有了新的认识和感受。网络爬虫又被称为网页蜘蛛,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。这门课主要介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授了构建网络爬虫功能的两条重要技术路线:requests-bs4-re和Scrapy。

在第一周的课程中我学习到了Requests库一共有七个主要办法requests.request()、requests.get()、requests.head()、requests.post()、requests.put()requests.patch()requests.delete(),我们要了解它们的意思,例如requests.request()表示的是构造一个请求,支撑下一个方法的基础方法。当然除了了解它的七个方法以外,我们Requests库的七个异常分别表示的意义,如requests.ConnectionError表示的是网络连接错误异常,如DNS查询失败、拒绝连接等。

在后面的学习中,我还回顾并新学到一些专业单词的意思。URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。HTTP协议的URL示例是使用超级文本传输协议HTTP,提供超级文本信息服务的资源。文件的URL用URL表示文件时,file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。BeautifulSoup的导入时用服务器方式用 from bs4 import BeautifulSoup代码进入,常用BeautifulSoup有四个,但是每一个解释器的使用条件不同,BeautifulSoup类的基本元素有五个。常见的信息标记提取直接搜素<>.find_all() <>.find等方法,在这门课中教授还给我们运用实例代码讲了同时存在的扩展方法。crapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。还有许多我就不一一列举了。

我深刻的认识到Python对于我们学习和工作都起到了很重要的作用,大大的降低了我们的时间,更快更好的对信息进行提取。接下来我会继续对Python网络爬虫与信息提取这门课程的学习,跟随老师的步伐,加深对知识点的学习与巩固,相信未来的某一天会对我们产生很大的帮助。

posted on 2019-10-28 18:47  黄立锴  阅读(158)  评论(0编辑  收藏  举报

导航