爬虫 - 随笔分类 - 北伽

zip 下载解压

摘要：import requestsimport osimport zipfileurl="https://nvd.nist.gov/feeds/json/cve/1.1/nvdcve-1.1-modified.json.zip"headers={ "Host":"nvd.nist.gov", "Cook 阅读全文

posted @ 2019-12-20 17:58 北伽阅读(840) 评论(0) 推荐(0)

seleium 滑动

摘要：def get_track(distance): # distance为传入的总距离 # 移动轨迹 track = [] # 当前位移 current = 0 # 减速阈值 mid = distance * 4 / 5 # 计算间隔 t = 0.2 # 初速度 v = 0 while current 阅读全文

posted @ 2019-12-12 16:03 北伽阅读(238) 评论(0) 推荐(0)

滑动

摘要：from selenium.webdriver import ActionChainsfrom pynput.keyboard import Key, Controller as c2from pynput.mouse import Button, Controller as c1from sele 阅读全文

posted @ 2019-12-12 16:03 北伽阅读(221) 评论(0) 推荐(0)

利用 Python Faker 包来制作假数据

摘要：在做程序开发的时候，我们经常会用到一些测试数据，相信大多数同学是这么来造测试数据的： 1 2 3 4 5 6 7 8 test1 test01 test02 测试1 测试2 测试数据1 这是一段测试文本这是一段很长很长很长的测试文本... 1 2 3 4 5 6 7 8 test1 test01 阅读全文

posted @ 2019-09-17 16:46 北伽阅读(810) 评论(0) 推荐(0)

验证码截图接打码平台

摘要：1 #打码平台 2 def dmpt(self,filename,bro): 3 result=fateadm_api.TestFunc(filename)#调用打码平台 4 print("准备输入验证码") 5 time.sleep(1) 6 bro.find_element_by_xpath(' 阅读全文

posted @ 2019-08-26 16:18 北伽阅读(414) 评论(0) 推荐(0)

user-agent池

摘要：原因一部分网站反爬，会通过检查请求的请求头里是否有浏览器的user-agent来判断请求是否是爬虫。当你在请求头里加上user-agent，然后，进行反复的请求后，系统又会判断请求时爬虫，因为单一版本浏览器请求过多，为了达到以假乱真的目的，你需要构建一个user-agent池，然后随机调用，那样相对阅读全文

posted @ 2019-08-22 17:15 北伽阅读(631) 评论(0) 推荐(0)

通过邮件发短信

摘要：import smtplibfrom email.mime.text import MIMEText# 第三方 SMTP 服务mail_host = "smtp.163.com" # SMTP服务器mail_user = "" # 用户名mail_pass = "" # 授权密码，非登录密码send 阅读全文

posted @ 2019-08-22 16:07 北伽阅读(336) 评论(0) 推荐(0)

Airflow安装与使用

摘要：# Airflow 1.10+安装本次安装Airflow版本为1.10+，其需要依赖Python和DB，本次选择的DB为Mysql。本次安装组件及版本如下：Airflow == 1.10.0Python == 3.6.5Mysql == 5.7# 整体流程1. 建表2. 安装3. 配置4. 运行5. 阅读全文

posted @ 2019-07-19 10:40 北伽阅读(4771) 评论(0) 推荐(0)

彻底搞懂scrapy的中间件第三章

摘要：彻底搞懂Scrapy的中间件（三）在前面两篇文章介绍了下载器中间件的使用，这篇文章将会介绍爬虫中间件（Spider Middleware）的使用。爬虫中间件爬虫中间件的用法与下载器中间件非常相似，只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response；爬虫中间阅读全文

posted @ 2018-12-25 15:54 北伽阅读(380) 评论(0) 推荐(0)

彻底搞懂scrapy的中间件第一章

摘要：彻底搞懂Scrapy的中间件（一）中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数阅读全文

posted @ 2018-12-25 15:53 北伽阅读(362) 评论(0) 推荐(0)

彻底搞懂scrapy的中间件第二章

摘要：彻底搞懂Scrapy的中间件（二）在上一篇文章中介绍了下载器中间件的一些简单应用，现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。在中间件中集成Selenium 对于一些很麻烦的异步加载页面，手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium 阅读全文

posted @ 2018-12-25 15:53 北伽阅读(327) 评论(0) 推荐(0)

爬虫面试题

摘要：scrapy框架的工作流程？ a、spider解析下载器下下来的response，返回item或是links b、item或者link经过spidermiddleware的process_spider_out( )方法，交给engine c、engine将item交给item pipeline ，将阅读全文

posted @ 2018-12-24 18:24 北伽阅读(2725) 评论(0) 推荐(2)

python 实战爬虫项目，学会这个32个项目天下无敌

摘要：python 爬虫 32个项目（学会了你就牛了哈哈） 32个Python爬虫项目让你一次吃到撑今天为大家整理了32个Python爬虫项目。整理的原因是，爬虫入门简单快速，也非常适合新入门的小伙伴培养信心。所有链接指向GitHub，祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微阅读全文

posted @ 2018-12-21 12:36 北伽阅读(1006) 评论(0) 推荐(0)

爬取58同城二手房数据存储到redis数据库和mysql数据库

摘要：主程序代码： 1 import scrapy 2 from scrapyDemo.items import ScrapydemoItem 3 4 class PostSpider(scrapy.Spider): 5 name = 'home' 6 # allowed_domains = ['www. 阅读全文

posted @ 2018-12-18 18:13 北伽阅读(688) 评论(0) 推荐(0)

Scrapy操作浏览器获取网易新闻数据

摘要：爬虫代码： 1 import scrapy 2 from selenium import webdriver 3 4 class WangyiSpider(scrapy.Spider): 5 name = 'wangyi' 6 # allowed_domains = ['www.xxx.com'] 阅读全文

posted @ 2018-12-18 18:09 北伽阅读(341) 评论(0) 推荐(0)

Scrapy框架中的 UA伪装

摘要：例如：百度输入ip查看是自己本机的ip，通过UA伪装成其他机器的ip, 爬虫代码： 1 import scrapy 2 3 4 class UatestSpider(scrapy.Spider): 5 name = 'UATest' 6 # allowed_domains = ['www.xxx.c 阅读全文

posted @ 2018-12-18 18:03 北伽阅读(1136) 评论(0) 推荐(0)

scrapy框架中如何使用selenuim

摘要：主程序代码： 1 import scrapy 2 from selenium import webdriver 3 4 class SelenuimtestSpider(scrapy.Spider): 5 name = 'selenuimTest' 6 # allowed_domains = ['w 阅读全文

posted @ 2018-12-18 17:56 北伽阅读(285) 评论(0) 推荐(0)

基于scrapy中---全站爬取数据----CrawlSpider的使用

摘要：#数据源：糗事百科爬虫代码： 1 import scrapy 2 from scrapy.linkextractors import LinkExtractor 3 from scrapy.spiders import CrawlSpider, Rule 4 5 6 class QiubaiSpi 阅读全文

posted @ 2018-12-18 17:52 北伽阅读(173) 评论(0) 推荐(0)

基于百度AI的自然语言处理文字分类

摘要：前言：需要在百度AI平台注册登录并创建项目。爬虫代码 1 import scrapy 2 from BaiDuAi.items import BaiduaiItem 3 4 class AiSpider(scrapy.Spider): 5 name = 'ai' 6 # allowed_doma 阅读全文

posted @ 2018-12-18 17:48 北伽阅读(958) 评论(0) 推荐(0)

基于scrapy-redis两种形式的分布式爬虫

摘要：redis分布式部署 1.scrapy框架是否可以自己实现分布式？ - 不可以。原因有二。其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）其二：多台机器爬取到的数据无法通过同一个管道对数据阅读全文

posted @ 2018-12-18 17:44 北伽阅读(445) 评论(0) 推荐(0)

北伽

每一个不曾起舞的日子，都是对生命的辜负

随笔分类 - 爬虫

公告