第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

通过对《python网络爬虫与信息的提取》的学习，让我了解到网络爬虫是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。它被广泛地运用于互联网的搜索引擎或其他类似的网站，可以自动采集所有其他能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。

第一周，这门课程是使用Python第三方库Requests来爬取网页的信息。requests库的安装命令是：pip install requests，当 r.status_code命令后，显示200状态码，则为访问成功。同时我还了解到Requests库的七个主要方法：(1)equests.request():构造一个请求(2)requests.get():获取网页的主要方法(3)requests.head():获取网页头信息方法；(4)requests.post():向网页提交post请求的方法(5)requests.put():向网页提交put请求的方法(6)requests.patch():向网页提交局部修改请求(7)requests.delete():向网页提交删除请求。

在第二周的学习中，认识了第三方库Beautiful Soup库,懂得了信息的一般提取步骤。Beautiful Soup库是解析、遍历、维护“标签树”的功能库。Beautiful Soup库解析器有html.parser、lxml、xml、html5lib以及此库有五个基本元素，分别是（1）Tag：标签，最基本的信息组织单元,分别用<>和</>标明开头和结尾标签；(2)Name:标签的名称，<>...</p>的名字是“p”,格式：<tag>.name;(3)Attributes:标签的属性，字典形式组织，格式：<tag>.attrs;(4)NavigableString:标签内非属性字符串，<..</>中字符，格式：<tag>.string;(5)Comment:标签内字符串的注释部分，一种特殊的Comment类型。

在第三周中，学习到了Re正则表达式提取页面关键信息以及常用操作符，Re的主要功能函数：（1）re.search()：在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象；（2）re.match()：在一个字符串的开始位置起匹配正则表达式，返回match对象；（3）re.findall()：搜索字符串；（4）re.split()：将一个字符串按照正则表达式匹配结果进行分割，返回列表类型；（5）re.finditer()：搜索字符串，返回匹配结果的迭代类型；（6）re.sub()：在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串。

在第四周，了解到了scrapy爬虫框架。明白了它的一些常见的命令：(1)startproject是创建一个新工程;(2)genspider是创建一个爬虫;(3)settings是获得爬虫配置信息;(4)crawl是运行一个爬虫。

这四周的学习，让我认识到网络爬虫爬取信息的高效性，但是并不能随便爬取，要根据每个网站的robots.txt协议，否则可能会触犯到法律。这次的学习，也让我感受python语言的强大性，虽然课程讲解得很详细，但是自身依然存在一些一知半解的问题，希望自己多利用课余时间在网上搜索资料，解决疑惑同时勤加操作，更好地理解与掌握所学内容。

posted @ 2019-10-31 12:28 骆耀阅读(135) 评论(0) 编辑收藏举报

刷新页面返回顶部

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

公告