随笔分类 - 爬虫
摘要:# 环境安装:pip install selenium# 编码流程: 1.导报:from selenium import webdriver 2. 实例化某一款浏览器对象 3.自指定自动化操作代码 # 使用下面的方法,查找指定的元素进行操作 find_element_by_id 根据id找节点 fi
阅读全文
摘要:""" ##########浏览器的本质############# sk=socket.socket(socket.AF_INET,socket.SOCK_STREAM) #连接 IO阻塞 sk.connect(('www.baidu.com',80)) print('连接成功') #连接成功后发送消息 GET请求 sk.send(b'GET / HTTP/1.0\r\nHost: www....
阅读全文
摘要:1.asyncio模块 @asyncio.coroutine def task(): print('start...') yield from asyncio.sleep(5) #不支持HTTP请求,支持TCP请求 #但HTTP请求就是基于TCP封装的,所以我们可以基于TCP协议发送 #HTTP请求
阅读全文
摘要:由于本人知识有限,只看懂到这里,后续再更新。。。。。
阅读全文
摘要:#==>第一部分:基本配置第二部分:并发与延迟第三部分:智能限速/自动节流:AutoThrottle extension第四部分:爬取深度与爬取方式第五部分:中间件、Pipelines、扩展第六部分:缓存第七部分:线程池第八部分:其他默认配置参考<=== D:\python3.6\Lib\site-packages\scrapy\settings\default_settings.py
阅读全文
摘要:1.自定义pipeline 实例 2. 自定义扩展
阅读全文
摘要:1 Dowloader Middeware class DownMiddleware1(object): def process_request(self, request, spider): """ 请求需要被下载时,经过所有下载器中间件的process_request调用 :param requ
阅读全文
摘要:https://docs.scrapy.org/en/latest/topics/selectors.html
阅读全文
摘要:1、介绍 2、Spiders会循环做如下事情 3、Spiders总共提供了五种类: 4、导入使用 5、class scrapy.spiders.Spider 这是最简单的spider类,任何其他的spider类都需要继承它(包含你自己定义的)。 该类不提供任何特殊的功能,它仅提供了一个默认的star
阅读全文
摘要:一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As
阅读全文
摘要:一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现文档导航,查找,修改文档的方式,Beautiful Soup会帮你节省数小时甚至数天的工作时间,你可能在寻找 Beautiful Soup3 的文档,Beautiful S
阅读全文
摘要:一:什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一类事物的规则。(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。 二:常用匹配
阅读全文
摘要:1、Requests模块说明 Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,真正的为人类着想。 Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能,但是它的 API 太渣了。它是为另一个时代、另一个互联网
阅读全文
摘要:前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前; 一、爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛, 沿
阅读全文