第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

Posted on 2019-10-31 14:28 Kyuuso 阅读(130) 评论(0) 编辑收藏举报

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

这次在中国大学MOOC（慕课）网站上参与了Python网络爬虫与信息提取的课程学习，认真完成了课程第0到第4周的总计18课时的全部内容，初步认识了定向网络数据爬取和网页解析的基本方法，同时理解了网络爬虫的基本概念：网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，它可以自动化浏览网络中的信息，浏览信息的时候会按照我们编写的逻辑进行处理，这些逻辑我们就称之为网络爬虫算法。

使用Python可以很方便地编写出爬虫程序，进行网络信息的自动化检索。当我们研究爬虫的时候，不仅要了解爬虫如何实现，还需要掌握一些常见爬虫的算法，如果有必要，我们要有能力自己去制定相应的算法。

在本课程中，我们学习了Requests库提供了基本的网络爬虫功能，并了解了如何进一步通过它来构建一个网络爬虫系统，掌握了Requests库的七个库使用方法，这七个方法如下：requests.get():该方法获取HTML网页的主要方法，对应HTTP的GET；requests.head():获取HTML网页头信息的方法，对应于HTTP的HEAD:通过对网络头部的处理能伪装成用户浏览便于后续网络爬虫的使用。requests.post():向HTML网页提交post请求的方法，对应于HTTP的POST;requests.put():向HTML网页提交PUT请求的方法，对应于HTTP的PUT；requests.patch():向HTML网页提交局部修改请求，对应于HTTP的PATCH;requests.delete() : 向HTML页面提交删除请求，对应于HTTP的DELETE。通过本课程的学习我清楚了Requests库是同步请求，也就是从请求到收到响应这一系列过程都是同步进行的。课程同时也向我们介绍并解释了一些有用的专业名词，URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。HTTP协议的URL示例是使用超级文本传输协议HTTP，提供超级文本信息服务的资源。文件的URL用URL表示文件时，file表示，后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。BeautifulSoup的导入时用服务器方式用 from bs4 import BeautifulSoup代码进入，常用BeautifulSoup有四个，但是每一个解释器的使用条件不同，BeautifulSoup类的基本元素有五个。常见的信息标记提取直接搜素<>.find_all() <>.find等方法，在这门课中教授还给我们运用实例代码讲了同时存在的扩展方法。crapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。这些知识都为我们能够自己尝试建立网络爬虫系统提供了基础。

学会Python网络爬虫与信息提取这一门网络课程的知识对我帮助很大，让我得以学习网络爬虫这个现在的热门技术，更好的提升了个人能力。

会员力量，点亮园子希望

刷新页面返回顶部