Fork me on GitHub

文章分类 -  爬虫

摘要:上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正 阅读全文
posted @ 2018-02-04 16:56 金角大王 阅读(2645) 评论(0) 推荐(1) 编辑
摘要:什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python正则的详细讲解 常用 阅读全文
posted @ 2018-01-30 20:13 金角大王 阅读(2118) 评论(0) 推荐(0) 编辑
摘要:什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作 阅读全文
posted @ 2018-01-26 14:37 金角大王 阅读(6784) 评论(0) 推荐(0) 编辑
摘要:官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块 阅读全文
posted @ 2018-01-26 14:29 金角大王 阅读(4015) 评论(2) 推荐(2) 编辑
摘要:在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应 获取响应内容如果服务器能正常响应,会 阅读全文
posted @ 2018-01-26 14:28 金角大王 阅读(4755) 评论(0) 推荐(4) 编辑
摘要:世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。 整理这个文档资料希望能对小伙伴有帮助。 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 阅读全文
posted @ 2018-01-26 14:23 金角大王 阅读(5100) 评论(0) 推荐(3) 编辑