随笔分类 - 爬虫
摘要:原文链接https://www.cnblogs.com/zhaof/p/7189860.html Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML
阅读全文
摘要:原文链接:https://www.cnblogs.com/shuimohei/p/10495900.html
阅读全文
摘要:BeautifulSoup是一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取。 Quick Start 直接通过官方文档的例子,大致了解一下 给出一段html,我们开始从中捕获一些信息,使用BeautifulSoup解析这段代码,能够得到一
阅读全文
摘要:1.Requests是什么 首先Requests是HTTP库,在爬虫中用于请求的相关功能。 而且requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。 默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装。 2.Requests的
阅读全文
摘要:1.概念 1.1什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。 1.2爬虫有什么用 爬虫是为了获取数据,比如你想在网页上下载一些图片,一张一张的手动下载又太慢,
阅读全文
摘要:1.HTTP协议 1.1概念 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件
阅读全文