随笔分类 -  爬虫

摘要:一、自定义命令 1.不用在命令窗口 敲命令,通过py文件执行爬虫程序。 (1)在项目配置文件scrapy.cfg同级目录下创建一个start.py 文件。 (2)在start.py 文件中写入以下代码: from scrapy.cmdline import execute execute(['scr 阅读全文
posted @ 2023-10-26 22:38 冰底熊 阅读(50) 评论(0) 推荐(0) 编辑
摘要:scrapy 爬虫类 一. 重写 start_request 方法 1. scrapy 起始url 在创建爬虫的时候,父类中会执行start_request 函数,并且默认的回调函数为 def parge(self,response):pass 2. start_request函数 循环url 封装 阅读全文
posted @ 2023-10-26 22:37 冰底熊 阅读(14) 评论(0) 推荐(0) 编辑
摘要:CrawlSpider爬虫的创建 1. 创建项目 scrapy startproject 项目名例如:scrapy startproject circ 2. 创建CrawlSpider 爬虫 scrapy genspider -t crawl 爬虫名 网站名例如:scrapy genspider - 阅读全文
posted @ 2023-10-26 22:36 冰底熊 阅读(22) 评论(0) 推荐(0) 编辑
摘要:PySpider 相关资源: GitHub: https://github.com/binux/pyspider 文档: http://docs.pyspider.org/en/latest/ 安装 windows 安装 pyspider pip install pyspider 启动 pyspid 阅读全文
posted @ 2023-10-26 22:34 冰底熊 阅读(26) 评论(0) 推荐(0) 编辑
摘要:scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 1. URL去 阅读全文
posted @ 2023-10-26 22:34 冰底熊 阅读(64) 评论(0) 推荐(0) 编辑
摘要:目标网站: http://beijingair.sinaapp.com/ 目标文件的格式: 此处以爬取一个文件内容为例: http://beijingair.sinaapp.com/data/beijing/all/20131205/csv 爬取更多 文件 : 文件中的数据格式: 1.创建项目: s 阅读全文
posted @ 2023-10-26 22:30 冰底熊 阅读(20) 评论(0) 推荐(0) 编辑
摘要:1. SQL CREATE TABLE `JDAll` ( `shop_id` VARCHAR (16) NOT NULL, //商品ID `url` VARCHAR (255) DEFAULT NULL, //商品url `title` VARCHAR (1024) DEFAULT NULL, / 阅读全文
posted @ 2023-10-26 22:29 冰底熊 阅读(62) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # encoding: utf-8 from requests_html import HTMLSession import re import os from fontTools.ttLib import TTFont class QiCheZhiJia 阅读全文
posted @ 2023-10-26 22:22 冰底熊 阅读(54) 评论(0) 推荐(0) 编辑
摘要:selenium中使用代理ip # coding=utf8 """ author:dengjiyun """ from selenium import webdriver options= webdriver.ChromeOptions() options.add_argument("--proxy 阅读全文
posted @ 2023-10-26 22:21 冰底熊 阅读(15) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-11-01 21:55 冰底熊 阅读(0) 评论(0) 推荐(0) 编辑
摘要:from fake_useragent import UserAgent ua = UserAgent().random headers={ 'User-Agent':ua } print(headers) 阅读全文
posted @ 2019-05-25 17:21 冰底熊 阅读(567) 评论(0) 推荐(0) 编辑
摘要:mongo 去重 import pymongo client = pymongo.MongoClient() collection=client.t.test # collection.insert({'title':'python','name':'deng','age':23}) data={' 阅读全文
posted @ 2019-05-24 21:41 冰底熊 阅读(5767) 评论(0) 推荐(0) 编辑
摘要:目录[-] 代码 使用说明 淘宝--模拟登录 使用pyppeteer模拟登录淘宝,获取cookie。 代码 # -*- coding: utf-8 -*- import asyncio from pyppeteer import launch import time from retry impor 阅读全文
posted @ 2019-05-12 21:44 冰底熊 阅读(1382) 评论(0) 推荐(0) 编辑
摘要:执行JS的类库:execjs,PyV8,selenium,node execjs是一个比较好用且容易上手的类库(支持py2,与py3),支持 JS runtime。 1.安装: pip install PyExecJS 2.运行环境 execjs会自动使用当前电脑上的运行时环境(建议用nodejs, 阅读全文
posted @ 2019-05-12 10:34 冰底熊 阅读(28518) 评论(0) 推荐(7) 编辑
摘要:1. 开启安卓模拟器 2. 查看进程,MEmuHeadless.exe的进行程号, 然后在cmd中输入 netstat -ano|findstr "16116" 3. 到 airtest软件中连接安卓模拟器 效果: 阅读全文
posted @ 2019-05-06 09:58 冰底熊 阅读(1609) 评论(0) 推荐(0) 编辑
摘要:1. 在项目文件夹中新建一个commands文件夹 2. 在command的文件夹中新建一个文件 crawlall.py 3.在crawlall.py 中写一个command类,该类继承 scrapy.commands from scrapy.commands import ScrapyComman 阅读全文
posted @ 2019-05-05 13:15 冰底熊 阅读(1226) 评论(0) 推荐(0) 编辑
摘要:安装: pip install scrapy_proxies github: https://github.com/aivarsk/scrapy-proxies scrapy爬虫配置文件settings.py: # Retry many times since proxies often fail 阅读全文
posted @ 2019-05-04 22:49 冰底熊 阅读(1108) 评论(0) 推荐(0) 编辑
摘要:1.Charles安装: 1. windows 安装证书 2. 3. 4. 5 pc端设置: Android 手机上设置代理: 先查看pc 端的ip: 2.模拟器进入wifi,按住wifi 3. 模拟器设置代理 下载证书: 用手机浏览器访问: chs.pro/ssl 2. mitmproxy安装 手 阅读全文
posted @ 2019-05-04 21:45 冰底熊 阅读(855) 评论(0) 推荐(0) 编辑
摘要:1. 线程池 的应用 from multiprocessing.dummy import Pool import requests from lxml import etree url="https://sz.lianjia.com/ershoufang/co32/" # url="https:// 阅读全文
posted @ 2019-05-01 18:50 冰底熊 阅读(244) 评论(0) 推荐(0) 编辑
摘要:1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待当前URL抓取完毕之后在进行下一个URL的抓取,抓取效率可以提高很多。 2. Scrapy-redis:虽然Scrapy框架是异步加多线程的,但是我们只能在一台主机上运行,爬取效率还是有限的,Scrapy-re 阅读全文
posted @ 2019-04-29 21:17 冰底熊 阅读(7998) 评论(2) 推荐(2) 编辑

点击右上角即可分享
微信分享提示