随笔分类 -  爬虫

摘要:# 环境安装:pip install selenium# 编码流程: 1.导报:from selenium import webdriver 2. 实例化某一款浏览器对象 3.自指定自动化操作代码 # 使用下面的方法,查找指定的元素进行操作 find_element_by_id 根据id找节点 fi 阅读全文
posted @ 2020-03-13 22:11 lujiacheng-python 阅读(1281) 评论(0) 推荐(0) 编辑
摘要:""" ##########浏览器的本质############# sk=socket.socket(socket.AF_INET,socket.SOCK_STREAM) #连接 IO阻塞 sk.connect(('www.baidu.com',80)) print('连接成功') #连接成功后发送消息 GET请求 sk.send(b'GET / HTTP/1.0\r\nHost: www.... 阅读全文
posted @ 2019-01-11 16:59 lujiacheng-python 阅读(164) 评论(0) 推荐(0) 编辑
摘要:1.asyncio模块 @asyncio.coroutine def task(): print('start...') yield from asyncio.sleep(5) #不支持HTTP请求,支持TCP请求 #但HTTP请求就是基于TCP封装的,所以我们可以基于TCP协议发送 #HTTP请求 阅读全文
posted @ 2019-01-11 16:37 lujiacheng-python 阅读(849) 评论(0) 推荐(0) 编辑
摘要:由于本人知识有限,只看懂到这里,后续再更新。。。。。 阅读全文
posted @ 2019-01-04 19:22 lujiacheng-python 阅读(504) 评论(0) 推荐(0) 编辑
摘要:#==>第一部分:基本配置第二部分:并发与延迟第三部分:智能限速/自动节流:AutoThrottle extension第四部分:爬取深度与爬取方式第五部分:中间件、Pipelines、扩展第六部分:缓存第七部分:线程池第八部分:其他默认配置参考<=== D:\python3.6\Lib\site-packages\scrapy\settings\default_settings.py 阅读全文
posted @ 2019-01-04 19:18 lujiacheng-python 阅读(660) 评论(0) 推荐(0) 编辑
摘要:1.自定义pipeline 实例 2. 自定义扩展 阅读全文
posted @ 2019-01-04 19:09 lujiacheng-python 阅读(225) 评论(0) 推荐(0) 编辑
摘要:1 Dowloader Middeware class DownMiddleware1(object): def process_request(self, request, spider): """ 请求需要被下载时,经过所有下载器中间件的process_request调用 :param requ 阅读全文
posted @ 2018-12-22 21:59 lujiacheng-python 阅读(186) 评论(0) 推荐(0) 编辑
摘要:https://docs.scrapy.org/en/latest/topics/selectors.html 阅读全文
posted @ 2018-12-22 21:51 lujiacheng-python 阅读(1339) 评论(0) 推荐(0) 编辑
摘要:1、介绍 2、Spiders会循环做如下事情 3、Spiders总共提供了五种类: 4、导入使用 5、class scrapy.spiders.Spider 这是最简单的spider类,任何其他的spider类都需要继承它(包含你自己定义的)。 该类不提供任何特殊的功能,它仅提供了一个默认的star 阅读全文
posted @ 2018-12-22 21:29 lujiacheng-python 阅读(248) 评论(0) 推荐(0) 编辑
摘要:一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文
posted @ 2018-12-22 21:06 lujiacheng-python 阅读(133) 评论(0) 推荐(0) 编辑
摘要:一 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现文档导航,查找,修改文档的方式,Beautiful Soup会帮你节省数小时甚至数天的工作时间,你可能在寻找 Beautiful Soup3 的文档,Beautiful S 阅读全文
posted @ 2018-12-22 20:13 lujiacheng-python 阅读(170) 评论(0) 推荐(0) 编辑
摘要:一:什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一类事物的规则。(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。 二:常用匹配 阅读全文
posted @ 2018-12-21 23:28 lujiacheng-python 阅读(225) 评论(0) 推荐(0) 编辑
摘要:1、Requests模块说明 Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,真正的为人类着想。 Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能,但是它的 API 太渣了。它是为另一个时代、另一个互联网 阅读全文
posted @ 2018-12-21 20:44 lujiacheng-python 阅读(293) 评论(0) 推荐(0) 编辑
摘要:前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前; 一、爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛, 沿 阅读全文
posted @ 2018-12-21 20:08 lujiacheng-python 阅读(204) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示