随笔分类 - 爬虫
摘要:import requestsimport osimport zipfileurl="https://nvd.nist.gov/feeds/json/cve/1.1/nvdcve-1.1-modified.json.zip"headers={ "Host":"nvd.nist.gov", "Cook
阅读全文
摘要:def get_track(distance): # distance为传入的总距离 # 移动轨迹 track = [] # 当前位移 current = 0 # 减速阈值 mid = distance * 4 / 5 # 计算间隔 t = 0.2 # 初速度 v = 0 while current
阅读全文
摘要:from selenium.webdriver import ActionChainsfrom pynput.keyboard import Key, Controller as c2from pynput.mouse import Button, Controller as c1from sele
阅读全文
摘要:在做程序开发的时候,我们经常会用到一些测试数据,相信大多数同学是这么来造测试数据的: 1 2 3 4 5 6 7 8 test1 test01 test02 测试1 测试2 测试数据1 这是一段测试文本 这是一段很长很长很长的测试文本... 1 2 3 4 5 6 7 8 test1 test01
阅读全文
摘要:1 #打码平台 2 def dmpt(self,filename,bro): 3 result=fateadm_api.TestFunc(filename)#调用打码平台 4 print("准备输入验证码") 5 time.sleep(1) 6 bro.find_element_by_xpath('
阅读全文
摘要:原因一部分网站反爬,会通过检查请求的请求头里是否有浏览器的user-agent来判断请求是否是爬虫。当你在请求头里加上user-agent,然后,进行反复的请求后,系统又会判断请求时爬虫,因为单一版本浏览器请求过多,为了达到以假乱真的目的,你需要构建一个user-agent池,然后随机调用,那样相对
阅读全文
摘要:import smtplibfrom email.mime.text import MIMEText# 第三方 SMTP 服务mail_host = "smtp.163.com" # SMTP服务器mail_user = "" # 用户名mail_pass = "" # 授权密码,非登录密码send
阅读全文
摘要:# Airflow 1.10+安装本次安装Airflow版本为1.10+,其需要依赖Python和DB,本次选择的DB为Mysql。本次安装组件及版本如下:Airflow == 1.10.0Python == 3.6.5Mysql == 5.7# 整体流程1. 建表2. 安装3. 配置4. 运行5.
阅读全文
摘要:彻底搞懂Scrapy的中间件(三) 在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用。 爬虫中间件 爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response;爬虫中间
阅读全文
摘要:彻底搞懂Scrapy的中间件(一) 中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数
阅读全文
摘要:彻底搞懂Scrapy的中间件(二) 在上一篇文章中介绍了下载器中间件的一些简单应用,现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。 在中间件中集成Selenium 对于一些很麻烦的异步加载页面,手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium
阅读全文
摘要:scrapy框架的工作流程? a、spider解析下载器下下来的response,返回item或是links b、item或者link经过spidermiddleware的process_spider_out( )方法,交给engine c、engine将item交给item pipeline ,将
阅读全文
摘要:python 爬虫 32个项目(学会了你就牛了哈哈) 32个Python爬虫项目让你一次吃到撑 今天为大家整理了32个Python爬虫项目。整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微
阅读全文
摘要:主程序代码: 1 import scrapy 2 from scrapyDemo.items import ScrapydemoItem 3 4 class PostSpider(scrapy.Spider): 5 name = 'home' 6 # allowed_domains = ['www.
阅读全文
摘要:爬虫代码: 1 import scrapy 2 from selenium import webdriver 3 4 class WangyiSpider(scrapy.Spider): 5 name = 'wangyi' 6 # allowed_domains = ['www.xxx.com']
阅读全文
摘要:例如:百度输入ip查看是自己本机的ip,通过UA伪装成其他机器的ip, 爬虫代码: 1 import scrapy 2 3 4 class UatestSpider(scrapy.Spider): 5 name = 'UATest' 6 # allowed_domains = ['www.xxx.c
阅读全文
摘要:主程序代码: 1 import scrapy 2 from selenium import webdriver 3 4 class SelenuimtestSpider(scrapy.Spider): 5 name = 'selenuimTest' 6 # allowed_domains = ['w
阅读全文
摘要:#数据源:糗事百科 爬虫代码: 1 import scrapy 2 from scrapy.linkextractors import LinkExtractor 3 from scrapy.spiders import CrawlSpider, Rule 4 5 6 class QiubaiSpi
阅读全文
摘要:前言: 需要在百度AI平台注册登录并创建项目。 爬虫代码 1 import scrapy 2 from BaiDuAi.items import BaiduaiItem 3 4 class AiSpider(scrapy.Spider): 5 name = 'ai' 6 # allowed_doma
阅读全文
摘要:redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以。原因有二。 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据
阅读全文

浙公网安备 33010602011771号