第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

通过《python网络爬虫与信息提取》这门课程,让我知道了什么是爬虫。看视频的时候说实话,还是很懵的,因为自己的python基础不好对老师讲的很多语句也就是看看或则照着画,然后去实现最后的目的结果。通过这4周课程的学习,视频的观看。我觉得的自己要在 python的基础,特别是在字符串(string)、列表的迭代(iteration)和切片(slice),字典类型,For循环等这些方面在重新学习进步。其次还要了解熟悉HTML基础知识。这样就知道了父标签、子标签、兄弟标签等,对于快速定位甚是有用。

通过观看视频我学习到了:Requests库中get和post对HTTP的请求方式获得response。在逐渐学习深入过程中,了解、理解、正则表达式(Regular Expression),这是非常强大的东西,在很多语言中都会遇到这个东西,对提取想要的内容非常有帮助。Beautiful  Soup库的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的HTML解析器这四种解析器。Beauti fulSoup类的基本元素是<p class="title""> .... </p>,基本元素:Tag(标签,最基本的信息组织单元,分别用<>和</ >标明开头和结尾)、Name(标签的名字, <>../p>的名字是'p' ,格式: <tag> .name)、Attributes(标签的属性,字典形式组织,格式: <tag> . attrs)、NavigableString(标签内非属性字符串, <..</>中字符串,格式: <tag> . string)、Comment(标签内字符串的注释部分,- 种特殊的Comment类型)。信息提取一般方法有完整解析信息的标记形式,再提取关键信息;无视标记形式,直接搜索关键信息。scrapy是一个快速功能强大的网络爬虫框架。知道了requests与scrapy的相同点:1.两个都可以进行页面请求和爬取2.两者的可用性好,文档丰富,入门简单3.两者都没有处理js、提交表单、应当验证码等功能。 知道了应对需求去选择技术路线开发爬虫。

感觉爬虫的学习还是需要对于python、html的基础的,对于自己还是较为困难的,还是要打好基础慢慢学习,才可以学爬虫的更多方面的应用。

posted @ 2019-10-30 14:34  高戬佐  阅读(158)  评论(0)    收藏  举报