爬虫 - 随笔分类 - 冰底熊

scrapy自定义命令、中间件、自定扩展、去重

摘要：一、自定义命令 1.不用在命令窗口敲命令，通过py文件执行爬虫程序。（1）在项目配置文件scrapy.cfg同级目录下创建一个start.py 文件。（2）在start.py 文件中写入以下代码： from scrapy.cmdline import execute execute(['scr 阅读全文

posted @ 2023-10-26 22:38 冰底熊阅读(84) 评论(0) 推荐(0)

scrapy 爬虫框架（二）

摘要：scrapy 爬虫类一. 重写 start_request 方法 1. scrapy 起始url 在创建爬虫的时候，父类中会执行start_request 函数，并且默认的回调函数为 def parge(self,response):pass 2. start_request函数循环url 封装阅读全文

posted @ 2023-10-26 22:37 冰底熊阅读(52) 评论(0) 推荐(0)

scrapy中的CrawlSpider

摘要：CrawlSpider爬虫的创建 1. 创建项目 scrapy startproject 项目名例如：scrapy startproject circ 2. 创建CrawlSpider 爬虫 scrapy genspider -t crawl 爬虫名网站名例如：scrapy genspider - 阅读全文

posted @ 2023-10-26 22:36 冰底熊阅读(47) 评论(0) 推荐(0)

PySpider

摘要：PySpider 相关资源： GitHub： https://github.com/binux/pyspider 文档： http://docs.pyspider.org/en/latest/ 安装 windows 安装 pyspider pip install pyspider 启动 pyspid 阅读全文

posted @ 2023-10-26 22:34 冰底熊阅读(47) 评论(0) 推荐(0)

scrapy-redis

摘要：scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化 scrapy-redis组件 1. URL去阅读全文

posted @ 2023-10-26 22:34 冰底熊阅读(101) 评论(0) 推荐(0)

scrapy中的CSVFeedSpider

摘要：目标网站： http://beijingair.sinaapp.com/ 目标文件的格式：此处以爬取一个文件内容为例： http://beijingair.sinaapp.com/data/beijing/all/20131205/csv 爬取更多文件：文件中的数据格式： 1.创建项目： s 阅读全文

posted @ 2023-10-26 22:30 冰底熊阅读(46) 评论(0) 推荐(0)

scrapy中爬虫数据如何异步存储mysql数据库jd

摘要：1. SQL CREATE TABLE `JDAll` ( `shop_id` VARCHAR (16) NOT NULL, //商品ID `url` VARCHAR (255) DEFAULT NULL, //商品url `title` VARCHAR (1024) DEFAULT NULL, / 阅读全文

posted @ 2023-10-26 22:29 冰底熊阅读(86) 评论(0) 推荐(0)

汽车之家字体反爬

摘要：#!/usr/bin/env python # encoding: utf-8 from requests_html import HTMLSession import re import os from fontTools.ttLib import TTFont class QiCheZhiJia 阅读全文

posted @ 2023-10-26 22:22 冰底熊阅读(76) 评论(0) 推荐(0)

代理ip的使用

摘要：selenium中使用代理ip # coding=utf8 """ author:dengjiyun """ from selenium import webdriver options= webdriver.ChromeOptions() options.add_argument("--proxy 阅读全文

posted @ 2023-10-26 22:21 冰底熊阅读(30) 评论(0) 推荐(0)

抖音视频下载

该文被密码保护。

posted @ 2022-11-01 21:55 冰底熊阅读(0) 评论(0) 推荐(0)

布隆去重

摘要：#bloom_filter from bloom_filter import BloomFilter # 生成一个装1亿大小的 bloom = BloomFilter(max_elements=100000000, error_rate=0.1) # 向bloom添加URL bloom.add('h 阅读全文

posted @ 2022-04-27 21:36 冰底熊阅读(38) 评论(0) 推荐(0)

ast-hook内存漫游-跟值

摘要：内存漫游 ast-hook-for-js-RE 一.下载 git clone https://github.com/CC11001100/ast-hook-for-js-RE.git 解压：二.安装依赖 cd D:\tools\ast-hook-for-js-RE cmd npm install 阅读全文

posted @ 2022-04-19 09:03 冰底熊阅读(1025) 评论(0) 推荐(0)

vscode模拟谷歌开发者工具调试js

摘要：1.相关插件安装 Debugger for Chrome Code Runner js调试相关参考: https://blog.csdn.net/weixin_43411585/article/details/108798737?spm=1001.2014.3001.5502 阅读全文

posted @ 2022-04-14 08:22 冰底熊阅读(131) 评论(0) 推荐(0)

node 安装和环境配置

摘要：node下载安装 1.下载地址 https://nodejs.org/en/download/ 2. 下载安装包后一路next 3. cmd 查看是否安装成功 4. 打开cmd升级npm npm install -g npm npm install -g cnpm 环境配置 1. 新建两个空文件夹阅读全文

posted @ 2022-04-14 08:18 冰底熊阅读(742) 评论(0) 推荐(0)

半自动补环境插件v_jstools

摘要：一.插件地址 https://github.com/cilame/v_jstools 二.插件安装 1.访问以上github地址，点击code按钮，选择 Download ZIP 选项，下载到桌面，然后解压到当前文件夹，会看到一个 v_jstools-main 的文件夹。 2. 谷歌浏览器地址栏输入阅读全文

posted @ 2022-04-13 08:33 冰底熊

浏览器无环境调试

摘要：1. 安装 /* 注意：如何安装不了，cmd窗口以管理员身份运行 npm install node-inspect -g // 浏览器无环境配置 cd 某个目录，安装 npm install vm2 -g //获取纯净v8环境，-g 全局安装 */ 2. 调试程序目录结构 3. 添加配置 4. 点阅读全文

posted @ 2021-12-17 23:34 冰底熊阅读(364) 评论(0) 推荐(0)

RPC调用获取参数值

摘要：进阶的可以看：https://baijiahao.baidu.com/s?id=1725536000710059774&wfr=spider&for=pc 本文以 RPC 获取百度登录password加密值为例：涉及的知识点有： 1.js调试，寻找加密代码 2. 浏览器本地代码替换 3. js自执阅读全文

posted @ 2021-12-12 22:35 冰底熊阅读(433) 评论(1) 推荐(0)

定时器和无限debugger hook 方法

摘要：// hook debugger Function.prototype.constructor_= Function.prototype.constructor; Function.prototype.constructor=function(x){ if (x=="debugger"){ retu 阅读全文

posted @ 2021-12-05 22:44 冰底熊

随机UA

摘要：from fake_useragent import UserAgent ua = UserAgent().random headers={ 'User-Agent':ua } print(headers) 阅读全文

posted @ 2019-05-25 17:21 冰底熊阅读(580) 评论(0) 推荐(0)

mongodb在插入数据环节避免数据重复的方法（爬虫中的使用update）

摘要：mongo 去重 import pymongo client = pymongo.MongoClient() collection=client.t.test # collection.insert({'title':'python','name':'deng','age':23}) data={' 阅读全文

posted @ 2019-05-24 21:41 冰底熊阅读(5805) 评论(0) 推荐(0)

侠客云

随笔分类 - 爬虫

公告