爬虫 - 随笔分类 - lujiacheng-python

selenium代码实例

摘要：# 环境安装:pip install selenium# 编码流程: 1.导报:from selenium import webdriver 2. 实例化某一款浏览器对象 3.自指定自动化操作代码 # 使用下面的方法，查找指定的元素进行操作 find_element_by_id 根据id找节点 fi 阅读全文

posted @ 2020-03-13 22:11 lujiacheng-python 阅读(1353) 评论(0) 推荐(0)

自定义异步IO爬虫

摘要：""" ##########浏览器的本质############# sk=socket.socket(socket.AF_INET,socket.SOCK_STREAM) #连接 IO阻塞 sk.connect(('www.baidu.com',80)) print('连接成功') #连接成功后发送消息 GET请求 sk.send(b'GET / HTTP/1.0\r\nHost: www.... 阅读全文

posted @ 2019-01-11 16:59 lujiacheng-python 阅读(171) 评论(0) 推荐(0)

爬虫高并发之异步IO

摘要：1.asyncio模块 @asyncio.coroutine def task(): print('start...') yield from asyncio.sleep(5) #不支持HTTP请求，支持TCP请求 #但HTTP请求就是基于TCP封装的，所以我们可以基于TCP协议发送 #HTTP请求阅读全文

posted @ 2019-01-11 16:37 lujiacheng-python 阅读(863) 评论(0) 推荐(0)

scrapy之源码解析

摘要：由于本人知识有限，只看懂到这里，后续再更新。。。。。阅读全文

posted @ 2019-01-04 19:22 lujiacheng-python 阅读(509) 评论(0) 推荐(0)

scrapy之settings参数

摘要：#==>第一部分：基本配置第二部分：并发与延迟第三部分：智能限速/自动节流：AutoThrottle extension第四部分：爬取深度与爬取方式第五部分：中间件、Pipelines、扩展第六部分：缓存第七部分：线程池第八部分：其他默认配置参考<=== D:\python3.6\Lib\site-packages\scrapy\settings\default_settings.py 阅读全文

posted @ 2019-01-04 19:18 lujiacheng-python 阅读(689) 评论(0) 推荐(0)

Scrapy之pipeline&扩展

摘要：1.自定义pipeline 实例 2. 自定义扩展阅读全文

posted @ 2019-01-04 19:09 lujiacheng-python 阅读(238) 评论(0) 推荐(0)

scrapy之中间件

摘要：1 Dowloader Middeware class DownMiddleware1(object): def process_request(self, request, spider): """ 请求需要被下载时，经过所有下载器中间件的process_request调用 :param requ 阅读全文

posted @ 2018-12-22 21:59 lujiacheng-python 阅读(194) 评论(0) 推荐(0)

scrapy解析库之Xpath( Selectors)

摘要：https://docs.scrapy.org/en/latest/topics/selectors.html 阅读全文

posted @ 2018-12-22 21:51 lujiacheng-python 阅读(1357) 评论(0) 推荐(0)

scrapy之spiders

摘要：1、介绍 2、Spiders会循环做如下事情 3、Spiders总共提供了五种类： 4、导入使用 5、class scrapy.spiders.Spider 这是最简单的spider类，任何其他的spider类都需要继承它（包含你自己定义的）。该类不提供任何特殊的功能，它仅提供了一个默认的star 阅读全文

posted @ 2018-12-22 21:29 lujiacheng-python 阅读(286) 评论(0) 推荐(0)

scrapy初探

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2018-12-22 21:06 lujiacheng-python 阅读(143) 评论(0) 推荐(0)

解析库之beautifulsoup模块

摘要：一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现文档导航,查找,修改文档的方式，Beautiful Soup会帮你节省数小时甚至数天的工作时间，你可能在寻找 Beautiful Soup3 的文档,Beautiful S 阅读全文

posted @ 2018-12-22 20:13 lujiacheng-python 阅读(180) 评论(0) 推荐(0)

解析库之re模块

摘要：一：什么是正则？正则就是用一些具有特殊含义的符号组合到一起（称为正则表达式）来描述字符或者字符串的方法。或者说：正则就是用来描述一类事物的规则。（在Python中）它内嵌在Python中，并通过 re 模块实现。正则表达式模式被编译成一系列的字节码，然后由用 C 编写的匹配引擎执行。二：常用匹配阅读全文

posted @ 2018-12-21 23:28 lujiacheng-python 阅读(236) 评论(0) 推荐(0)

requests模块

摘要：1、Requests模块说明 Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写，真正的为人类着想。 Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能，但是它的 API 太渣了。它是为另一个时代、另一个互联网阅读全文

posted @ 2018-12-21 20:44 lujiacheng-python 阅读(300) 评论(0) 推荐(0)

Python爬虫原理

摘要：前言简单来说互联网是由一个个站点和网络设备组成的大网，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的网页呈现我们眼前；一、爬虫是什么？如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿阅读全文

posted @ 2018-12-21 20:08 lujiacheng-python 阅读(217) 评论(0) 推荐(0)

IT_study

志不达智不达，恒心者方能成大事者也

随笔分类 - 爬虫

公告