爬虫 - 随笔分类 - lvye001

python图片去重复算法

摘要：import os from imagededup.methods import PHash phasher = PHash() def process_file(img_path): # 生成图像目录中所有图像的二值hash编码 encodings = phasher.encode_images( 阅读全文

posted @ 2023-07-10 15:54 lvye001 阅读(239) 评论(0) 推荐(0) 编辑

抖音网页版高清视频抓取教程selenium

摘要：废话不多说，直接上代码 from selenium import webdriverfrom selenium.webdriver import ChromeOptionsimport timeimport refrom selenium.webdriver.support import expec 阅读全文

posted @ 2022-03-25 15:34 lvye001 阅读(4374) 评论(0) 推荐(1) 编辑

selenium被识别如何反屏蔽

摘要：反屏蔽现在很多网站都加上了对 Selenium 的检测，来防止一些爬虫的恶意爬取。即如果检测到有人在使用 Selenium 打开浏览器，那就直接屏蔽。其大多数情况下，检测基本原理是检测当前浏览器窗口下的 window.navigator 对象是否包含 webdriver 这个属性。因为在正常使用阅读全文

posted @ 2022-03-25 10:43 lvye001 阅读(1547) 评论(0) 推荐(0) 编辑

使用selenium模拟登陆豆瓣网对搜索功能抓取数据

摘要：首先安装 selenium可以直接可以用pip安装。 pip install selenium 接下来安装谷歌驱动，chromedriver的安装一定要与Chrome的版本一致。安装地址如下： 1、http://chromedriver.storage.googleapis.com/index.h 阅读全文

posted @ 2022-03-22 15:29 lvye001 阅读(200) 评论(0) 推荐(0) 编辑

google、baidu、yahoo、bing这些搜索引擎网站的图片抓取方法汇总

摘要：icrawler基本用法内置爬虫该框架包含6个内置的图像抓取工具。谷歌 bing 百度 Flickr 通用网站图片爬虫（greedy） UrlList（抓取给定URL列表的图像）以下是使用内置抓取工具的示例。搜索引擎抓取工具具有相似的界面。第一步： pip install icrawle 阅读全文

posted @ 2020-04-27 17:25 lvye001 阅读(1852) 评论(0) 推荐(0) 编辑

python 抓取youtube教程

摘要：前言：相信大家很多人都看过youtube网站上的视频，网站上有很多的优质视频，清晰度也非常的高，看到喜欢的想要下载到本地，虽然也有很多方法，但是肯定没有python 来的快，废话不多说，上代码： https://www.bilibili.com/read/cv14499590教程 https:/ 阅读全文

posted @ 2019-11-21 17:45 lvye001 阅读(3191) 评论(0) 推荐(0) 编辑

上传淘宝网图片获取相似商品信息

摘要：点击上面的按钮，上传图片，返回该图片相似商品信息我们上传图片过程中，获取到图片上传url，以及需要携带的请求头信息，废话不多说，直接上代码注：请注意请求频率，若不间断请求10次，则会出现取不到name值，这就需要更换账号，cookies值。运行结果如下：注意：此代码仅供学术交流，禁止商业阅读全文

posted @ 2019-09-25 10:27 lvye001 阅读(1201) 评论(0) 推荐(0) 编辑

Python爬虫 Selenium与PhantomJS

摘要：Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动化操作，不同是Selenium可以直接运行在浏览器上，它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。阅读全文

posted @ 2019-09-24 14:11 lvye001 阅读(277) 评论(0) 推荐(0) 编辑

async 异步抓取花瓣网高清大图 30s爬取500张

摘要：废话不多说，直接上代码，不懂得看注释先安装 pip install aiohttp 注：window最大线程数 512，所以任务数不要超过这个值，否则抛出异常阅读全文

posted @ 2019-08-29 18:17 lvye001 阅读(361) 评论(0) 推荐(0) 编辑

python 抓取拉勾网攻略

摘要：废话不多说，直接上代码，将数据存入Mongdb 简述：拉勾网反爬一般，也就是先获取该搜索页面中的 cookies信息，然后添加到返回的json数据接口中。阅读全文

posted @ 2019-08-06 11:08 lvye001 阅读(231) 评论(0) 推荐(0) 编辑

scrapy 资料整合

摘要：先看看scrapy的框架流程， 1，安装 scrapy 链接查看即可。 2，新建scrapy项目目录结构图 3，cd到项目名下,创建任务。参数解析： name,定义spider的名字的字符串，必须是唯一的，name是spider的最重要的属性，而且是必须的allowed_domains可选，包阅读全文

posted @ 2019-01-14 13:52 lvye001 阅读(230) 评论(0) 推荐(0) 编辑

scrapy 安装技巧

摘要：手动安装twisted插件： 1.在http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted用Ctrl+F搜索twisted，下载对应版本。 2.用pip安装wheel（whl安装依赖）用命令行进入Python35\Scripts目录，执行 3.把下载下阅读全文

posted @ 2018-11-19 19:45 lvye001 阅读(171) 评论(0) 推荐(0) 编辑

requests利用selenium,代理Ip,云打码，验证码抠图操作爬取搜狗微信公众号内容

摘要：爬取思路，爬取搜狗微信公众号内容，爬取第一层url时请求太快出现验证码，我这里用的蘑菇云代理，并在程序中我判断什么情况下是否＋代理，做到合理运用代理ip。爬取第二层url时验证码出现次数更严重(和第一层验证码完全不一样)，一开始也用更换代理，但是感觉不怎么解决问题，后来利用selenium自动打开该页面，并把验证码图片抓取下来，然后发现抓下来的并不是页面中的真实验证码，估计是网站加密的原因。后... 阅读全文

posted @ 2018-10-29 22:25 lvye001 阅读(1617) 评论(0) 推荐(0) 编辑

scrapy中通过set()方法进行数据过滤去重

摘要：我们经常在抓取数据是碰到数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，来来我们直接上代码： pipelines.py中: 阅读全文

posted @ 2018-10-23 19:34 lvye001 阅读(889) 评论(0) 推荐(0) 编辑

python3使用newspaper快速抓取任何新闻文章正文

摘要：newspaper用于爬取各式各样的新闻网站 1，安装newspaper 2,直接上代码阅读全文

posted @ 2018-10-23 11:14 lvye001 阅读(1845) 评论(0) 推荐(0) 编辑

Scrapy爬虫入门Request和Response（请求和响应）

摘要：开发环境：Python 3.6.0 版本（当前最新）Scrapy 1.3.2 版本（当前最新）请求和响应 Scrapy的Request和Response对象用于爬网网站。通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该阅读全文

posted @ 2018-10-20 11:22 lvye001 阅读(1242) 评论(0) 推荐(0) 编辑

scrapy 爬取天猫商品信息

摘要：spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co 阅读全文

posted @ 2018-10-20 11:21 lvye001 阅读(1936) 评论(0) 推荐(0) 编辑

Python爬虫：带参url的拼接

摘要：如果连接直接这样写，看上去很直观，不过参数替换不是很方便，而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20 可以使用如下方式美化代码 from 阅读全文

posted @ 2018-10-20 11:20 lvye001 阅读(3508) 评论(0) 推荐(0) 编辑

使用python-docx生成Word文档

摘要：首先是安装python-docx：（centos环境） pip install python-docx 基本方法使用： from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx 阅读全文

posted @ 2018-10-20 11:18 lvye001 阅读(865) 评论(0) 推荐(0) 编辑

Python爬虫从入门到放弃之 Scrapy框架中Download Middleware用法

摘要：这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候，所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子，用于修改阅读全文

posted @ 2018-10-20 11:12 lvye001 阅读(207) 评论(0) 推荐(0) 编辑

lvye001

随笔分类 - 爬虫

公告

搜索

随笔分类

随笔档案

阅读排行榜

推荐排行榜

最新评论