第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

第一周学习了Requests库。它的七个主要方法：get、head、pos、put、patch、delete；其对象的属性；理解Response的编码、异常；爬取网页的通用代码框架；HTTP的大体内容，正确地进行网络爬虫、Robots协议基本语法及使用原则。通过网站页面的爬取、搜索页面关键字提交、网络图片的爬取和存储以及IP地址归属地的自动查询实际练习Requests库的网络爬取。Requests自动爬取HTML页面，自动网络请求提交。

第二周讲解了Beautiful Soup库及引用，Beautiful Soup类的理解、基本元素，标签树的遍历，bs4库的方法、编码，基于bs4库的HTML格式输出。Beautiful Soup解析HTML页面。信息标记的种类、方法、形式及其比较。通过中国大学排名定向爬虫的实例进行运用。采用requests‐bs4路线实现了中国大学排名定向爬虫，对中英文混排输出问题进行优化。

第三周的正则表达式需要记得的点比较碎，正则表达式的概念、使用、编译、语法、常用操作符、表示类型；Re库以及Match对象。Re正则表达式详解提取页面关键信息。很多操作符表示的意思很相近，细微的差别影响就很大。通过淘宝商品比价定向爬虫更好地掌握正则表达式在信息提取方面的应用，而股票数据定向爬虫则实现了展示爬取进程的动态滚动条。正则表达式是一个很灵活的东西，找到唯一识别的标识或字符串，就能很容易地找到自己想要的东西。并且正则的编写也没有一个固定的格式，只要能匹配到自己想要的东西就是可以的。

第四周介绍的Scrapy爬虫框架“5+2”结构，是一个半成品，用于实现爬虫功能的结构，约束了使用的一个模板。

模块：Engine、Downloader、Scheduler、Spider、Item Pipelines

中间键：Downloader Middleware、Spider Middleware

数据流路径：

Python爬虫的两个重要技术路线：Request、Scrapy及其异同点

*爬取快慢仅是一个参数，好坏需结合特定的情况考虑。如成熟的网站具有反爬技术，则爬虫速度不能太快。

Scrapy框架下，一个工程是一个最大的单元，可以有多个爬虫，每个爬虫相当于Spider模块

Scrapy常用命令：startproject、genspider 、settings、Crawl、list、shell

Scrapy爬虫提取信息的方法：Beautiful Soup、lxml、re、XPath Selector、CSS Selector

对股票数据进行完整配置并实现Scrapy爬虫

最初对于爬虫没有进行深入地接触，只是略微知晓。通过在中国大学生慕课网站上的《Python网络爬虫与信息提取》这门课的学习，让我有了详细的了解。网络爬虫又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。让提取信息变得更简单，对应的实例操作可以更好地运用相关的内容。由于自身的基础较差，学习起来仍然有一定的难度，后续还需要多练习课程中的内容才能更好地掌握里面的知识点。接下来会继续好好利用这个网站的资源提升自己。

posted on 2019-10-29 17:34 .yr 阅读(361) 评论(0) 编辑收藏举报