分布式爬虫

摘要: 分布式爬虫 scrapy框架是否可以自己实现分布式? 不可以 多台机器上部署的scrapy会各自拥有自己的调度器,这样就使得多台机器无法分配start_url列表中的url。即:多台机器无法共享同一个调度器。 多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久化储存。即:多台机器无法共享 阅读全文
posted @ 2019-04-06 12:12 透明的洪湖里 阅读(162) 评论(0) 推荐(0) 编辑

CrawlSpider

摘要: CrawlSpider 简介 CrawlSpider是Spider的一个子类,除继承了Spider的特性和功能外,还派生了自由的更强大的特性和能力。最显著的功能是"LinkExtracts",Spider是所有爬虫的基类,设计原则只是为了爬取start_url列表中的网页,而从爬取到的网页中进一步提 阅读全文
posted @ 2019-04-06 11:35 透明的洪湖里 阅读(174) 评论(0) 推荐(0) 编辑

scrapy基础

摘要: scrapy Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 Scrapy 是 基于twisted框架 开发而来,twisted是一个流行的事件驱动的python网络框架。因 阅读全文
posted @ 2019-04-06 11:12 透明的洪湖里 阅读(236) 评论(0) 推荐(0) 编辑

selenium

摘要: Selenium 1. 什么是selenium? 2. 安装 pip install selenium 3. 基本使用 实例化Chrome Webdriver browser.get()方法将打开URL中填写的地址,WebDriver 将等待, 直到页面完全加载完毕(其实是等到”onload” 方法 阅读全文
posted @ 2019-03-31 23:02 透明的洪湖里 阅读(158) 评论(0) 推荐(0) 编辑

OSI参考模型和TCP/IP模型基本知识

摘要: OSI七层模型 1. 为了解决网络之间的兼容性问题,实现网络设备间的相互通信 ,ISO于1984年提出的OSI参考模型(开放系统互连参考模型)。但是由于种种原因,并没有一种完全忠实于OSI参考模型的协议族流行开来。然后美国国防局在20世纪60年代开发的ARPANET的TCP/IP协议得到了广泛应用, 阅读全文
posted @ 2019-03-30 23:35 透明的洪湖里 阅读(1497) 评论(0) 推荐(0) 编辑

multiprocessing中进程池,线程池的使用

摘要: multiprocessing 多进程基本使用 1. 示例代码1 2. 示例代码2 进程池(from multiprocessing import Pool) 1. 进程池原理 2. 示例代码(串行) 3. 示例代码(并行) 更多参数请参考:https://www.cnblogs.com/damum 阅读全文
posted @ 2019-03-29 15:10 透明的洪湖里 阅读(3805) 评论(0) 推荐(0) 编辑

Django中cookie和session使用

摘要: cookie 1. 什么是cookie? Cookie 是浏览器访问服务器后,服务器传给浏览器的一段数据。浏览器需要保存这段数据,不得轻易删除。 此后每次浏览器访问该服务器,都必须带上这段数据 2. cookie的原理 由服务器产生内容,浏览器收到请求后保存在本地;当浏览器再次访问时,浏览器会自动带 阅读全文
posted @ 2019-03-23 23:02 透明的洪湖里 阅读(132) 评论(0) 推荐(0) 编辑

lightbox用法

摘要: 示例代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>lightbox</title> <link href="css/lightbox.css" rel="stylesheet"> <script t 阅读全文
posted @ 2019-03-13 14:33 透明的洪湖里 阅读(1031) 评论(0) 推荐(0) 编辑

Nivo Slider用法

摘要: 示例代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Document</title> <link rel="stylesheet" href="../themes/default/default.cs 阅读全文
posted @ 2019-03-13 14:22 透明的洪湖里 阅读(854) 评论(0) 推荐(0) 编辑

前端的一些小功能

摘要: 使用ul li,首选这种 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-8"> 5 <title>用ul li来实现浮动菜单</title> 6 <style type="text/css"> 7 .menu { 阅读全文
posted @ 2019-01-04 16:10 透明的洪湖里 阅读(235) 评论(0) 推荐(0) 编辑