上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要: from selenium import webdriver from PIL import Image import time import random from selenium.webdriver import ActionChains import cv2 from matplotlib 阅读全文
posted @ 2019-12-23 12:59 King~~~ 阅读(1995) 评论(0) 推荐(0) 编辑
摘要: Request对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数。其中比较常用的参数有: 1.url 请求的url对象 2.callback 在下载器下载完相应的数据后执行的回调函数 3.method 请求的方式,默认为GET方法,可以设置为其他方法 4.meta 阅读全文
posted @ 2019-12-18 22:00 King~~~ 阅读(858) 评论(0) 推荐(1) 编辑
摘要: 进入 该目录下执行scrapy shell 文件, 在命令行可执行该文件中链接的xpath语法,和BeautifulSoup语法。 阅读全文
posted @ 2019-12-18 20:29 King~~~ 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 背景: 在爬取网站信息是需要获取特定标签下的某些内容,就需要获取这些标签下的链接,如果获取每一个,在通过这个获取它下面的信息,这样效率会很低,时间复杂度O(n^2),但如果先获取链接,再获取内容,则时间复杂度为O(n)+O(n),每次执行完深度为2,则时间复杂度为O(n).效率会明显提高,非常适合整 阅读全文
posted @ 2019-12-17 23:39 King~~~ 阅读(450) 评论(0) 推荐(0) 编辑
摘要: # 简单的对item操作方式 # import json class QsbkPipeline(object): def __init__(self): self.fp=open('qsbk1.json','w',encoding="utf-8") def open_spider(self,spid 阅读全文
posted @ 2019-12-17 22:31 King~~~ 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 第一步:首先Spiders(爬虫)将需要发送请求的url(request)经过ScrapyEngine(引擎)交给Scheduler(调度器). 第二步:Scheduler(排序,入队)处理后,经过ScrapyEngine,DownloaderMiddlewares(可选,主要有User_Agent 阅读全文
posted @ 2019-12-15 21:53 King~~~ 阅读(1515) 评论(0) 推荐(0) 编辑
摘要: import json,requestsfrom urllib.request import urlopenfrom pyquery import PyQuery as pqfrom lxml import etree as et def getIp(): #获取本地网络ip html_text = 阅读全文
posted @ 2019-11-26 19:06 King~~~ 阅读(1098) 评论(0) 推荐(0) 编辑
摘要: 锁对象 原始锁是一个在锁定时不属于特定线程的同步基元组件。在Python中,它是能用的最低级的同步基元组件,由 _thread 扩展模块直接实现。 原始锁处于 "锁定" 或者 "非锁定" 两种状态之一。它被创建时为非锁定状态。它有两个基本方法, acquire() 和 release() 。当状态为 阅读全文
posted @ 2019-09-28 15:17 King~~~ 阅读(773) 评论(0) 推荐(0) 编辑
摘要: threading.active_count() 返回当前存活的线程类 Thread 对象。返回的计数等于 enumerate() 返回的列表长度。 threading.current_thread() 返回当前对应调用者的控制线程的 Thread 对象。如果调用者的控制线程不是利用 threadi 阅读全文
posted @ 2019-09-28 15:03 King~~~ 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 目录结构 BossFace.py文件中代码: 将这些开启,建立延迟,防止服务器封掉ip 在命令行创建的命令依次是: 1.scrapy startproject bossFace 2.scrapy genspider BossFace www.zhipin.com #进入spider中执行 3.scr 阅读全文
posted @ 2019-09-22 21:19 King~~~ 阅读(618) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 下一页