第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

通过《python网络爬虫与信息提取》这门课程，让我知道了什么是爬虫。看视频的时候说实话，还是很懵的，因为自己的python基础不好对老师讲的很多语句也就是看看或则照着画，然后去实现最后的目的结果。通过这4周课程的学习，视频的观看。我觉得的自己要在 python的基础，特别是在字符串(string)、列表的迭代(iteration)和切片(slice)，字典类型，For循环等这些方面在重新学习进步。其次还要了解熟悉HTML基础知识。这样就知道了父标签、子标签、兄弟标签等，对于快速定位甚是有用。

通过观看视频我学习到了：Requests库中get和post对HTTP的请求方式获得response。在逐渐学习深入过程中，了解、理解、正则表达式(Regular Expression),这是非常强大的东西，在很多语言中都会遇到这个东西，对提取想要的内容非常有帮助。Beautiful Soup库的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的HTML解析器这四种解析器。Beauti fulSoup类的基本元素是<p class="title""> .... </p>，基本元素：Tag（标签,最基本的信息组织单元,分别用<>和</ >标明开头和结尾）、Name（标签的名字, <>../p>的名字是'p' ,格式: <tag> .name）、Attributes（标签的属性,字典形式组织,格式: <tag> . attrs）、NavigableString（标签内非属性字符串, <..</>中字符串,格式: <tag> . string）、Comment（标签内字符串的注释部分，- 种特殊的Comment类型）。信息提取一般方法有完整解析信息的标记形式，再提取关键信息；无视标记形式，直接搜索关键信息。scrapy是一个快速功能强大的网络爬虫框架。知道了requests与scrapy的相同点：1.两个都可以进行页面请求和爬取2.两者的可用性好，文档丰富，入门简单3.两者都没有处理js、提交表单、应当验证码等功能。知道了应对需求去选择技术路线开发爬虫。

感觉爬虫的学习还是需要对于python、html的基础的，对于自己还是较为困难的，还是要打好基础慢慢学习，才可以学爬虫的更多方面的应用。

posted @ 2019-10-30 14:34 高戬佐阅读(158) 评论(0) 收藏举报

刷新页面返回顶部

高戬佐

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

公告