摘要:
创建项目 在开始爬取之前,您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令: 阅读全文
摘要:
python 异步MySQL存库 对于异步框架而言,这些延迟是无法接受的。因此, Twisted 提供了 twisted.enterprise.adbapi, 遵循DB-API 2.0协议的一个异步封装。adbapi 在单独的线程里面进行阻塞数据库操作, 当操作完成的时候仍然通过这个线程来进行回调。 阅读全文
摘要:
Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 Scrapy架构图(绿线是数据流向) S 阅读全文
摘要:
手动发送请求 import scrapy from choutiSpider.items import ChoutispiderItem class ChoutiSpider(scrapy.Spider): name = 'chouti' # allowed_domains = ['www.xxx. 阅读全文
摘要:
1. 事件循环 讲解asyncio的简单使用: 讲解asyncio的简单使用: 运行结果: 如果将上面代码中await asyncio.sleep(2)改为time.sleep(2) 代码运行不会报错,而且结果一样。但在协程中 不要运行同步代码,只要有同步代码,协程并发效果立马作废。我们以同时多个任 阅读全文
摘要:
2019年6月10日: MongoDB回顾: MongoDB缺陷-牺牲掉大部分磁盘空间 1.MongoDB启动 mongod 启动 查找的db目录默认是在 C:\data\db mongod --dbpath=D:\data\db [thread1] waiting for connections on port 27017 默认端口 27017 2.MongoDB指令 show d... 阅读全文
摘要:
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档 并发访问能极大的提高爬虫的性能,但是requests访问网页是阻塞的,无法并发,所以我们需要一个更牛逼的库 aiohttp ,它的用法与requests相 阅读全文
摘要:
Tornado是使用Python编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健,但却在创建和编写时有着足够的轻量级,并能够被用在大量的应用和工具中。 我们现在所知道的Tornado是基于Bret Taylor和其他人员为FriendFeed所开发的网络服务框架,当Fr 阅读全文
摘要:
2. 基本了解 在了解异步协程之前,我们首先得了解一些基础概念,如阻塞和非阻塞、同步和异步、多进程和协程。 2.1 阻塞 阻塞状态指程序未得到所需计算资源时被挂起的状态。程序在等待某个操作完成期间,自身无法继续干别的事情,则称该程序在该操作上是阻塞的。 常见的阻塞形式有:网络 I/O 阻塞、磁盘 I 阅读全文