随笔分类 -  爬虫

1
摘要:import os from imagededup.methods import PHash phasher = PHash() def process_file(img_path): # 生成图像目录中所有图像的二值hash编码 encodings = phasher.encode_images( 阅读全文
posted @ 2023-07-10 15:54 lvye001 阅读(239) 评论(0) 推荐(0) 编辑
摘要:废话不多说,直接上代码 from selenium import webdriverfrom selenium.webdriver import ChromeOptionsimport timeimport refrom selenium.webdriver.support import expec 阅读全文
posted @ 2022-03-25 15:34 lvye001 阅读(4374) 评论(0) 推荐(1) 编辑
摘要:反屏蔽 现在很多网站都加上了对 Selenium 的检测,来防止一些爬虫的恶意爬取。即如果检测到有人在使用 Selenium 打开浏览器,那就直接屏蔽。 其大多数情况下,检测基本原理是检测当前浏览器窗口下的 window.navigator 对象是否包含 webdriver 这个属性。因为在正常使用 阅读全文
posted @ 2022-03-25 10:43 lvye001 阅读(1547) 评论(0) 推荐(0) 编辑
摘要:首先安装 selenium可以直接可以用pip安装。 pip install selenium 接下来安装谷歌驱动,chromedriver的安装一定要与Chrome的版本一致。 安装地址如下: 1、http://chromedriver.storage.googleapis.com/index.h 阅读全文
posted @ 2022-03-22 15:29 lvye001 阅读(200) 评论(0) 推荐(0) 编辑
摘要:icrawler基本用法 内置爬虫 该框架包含6个内置的图像抓取工具。 谷歌 bing 百度 Flickr 通用网站图片爬虫(greedy) UrlList(抓取给定URL列表的图像) 以下是使用内置抓取工具的示例。 搜索引擎抓取工具具有相似的界面。 第一步: pip install icrawle 阅读全文
posted @ 2020-04-27 17:25 lvye001 阅读(1852) 评论(0) 推荐(0) 编辑
摘要:前言: 相信大家很多人都看过youtube网站上的视频,网站上有很多的优质视频,清晰度也非常的高,看到喜欢的想要下载到本地,虽然也有很多方法,但是肯定没有python 来的快, 废话不多说,上代码: https://www.bilibili.com/read/cv14499590教程 https:/ 阅读全文
posted @ 2019-11-21 17:45 lvye001 阅读(3191) 评论(0) 推荐(0) 编辑
摘要:点击上面的按钮,上传图片,返回该图片相似商品信息 我们上传图片过程中,获取到图片上传url,以及需要携带的请求头信息, 废话不多说,直接上代码 注:请注意请求频率,若不间断请求10次,则会出现取不到name值,这就需要更换账号,cookies值。 运行结果如下: 注意:此代码仅供学术交流,禁止商业 阅读全文
posted @ 2019-09-25 10:27 lvye001 阅读(1201) 评论(0) 推荐(0) 编辑
摘要:Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动化操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 阅读全文
posted @ 2019-09-24 14:11 lvye001 阅读(277) 评论(0) 推荐(0) 编辑
摘要:废话 不多说,直接上代码,不懂得看注释 先安装 pip install aiohttp 注:window最大线程数 512,所以任务数不要超过这个值,否则 抛出异常 阅读全文
posted @ 2019-08-29 18:17 lvye001 阅读(361) 评论(0) 推荐(0) 编辑
摘要:废话不多说,直接上代码,将数据存入Mongdb 简述:拉勾网反爬一般,也就是先获取该搜索页面中的 cookies信息,然后添加到返回的json数据接口中。 阅读全文
posted @ 2019-08-06 11:08 lvye001 阅读(231) 评论(0) 推荐(0) 编辑
摘要:先看看scrapy的框架流程, 1,安装 scrapy 链接 查看即可。 2,新建scrapy项目 目录结构图 3,cd到项目名下,创建任务。 参数解析: name,定义spider的名字的字符串,必须是唯一的,name是spider的最重要的属性,而且是必须的allowed_domains可选,包 阅读全文
posted @ 2019-01-14 13:52 lvye001 阅读(230) 评论(0) 推荐(0) 编辑
摘要:手动安装twisted插件: 1.在http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted用Ctrl+F搜索twisted,下载对应版本。 2.用pip安装wheel(whl安装依赖) 用命令行进入Python35\Scripts目录,执行 3.把下载下 阅读全文
posted @ 2018-11-19 19:45 lvye001 阅读(171) 评论(0) 推荐(0) 编辑
摘要:爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip。爬取第二层url时验证码出现次数更严重(和第一层验证码完全不一样),一开始也用更换代理,但是感觉不怎么解决问题,后来利用selenium自动打开该页面,并把验证码图片抓取下来,然后发现抓下来的并不是页面中的真实验证码,估计是网站加密的原因。后... 阅读全文
posted @ 2018-10-29 22:25 lvye001 阅读(1617) 评论(0) 推荐(0) 编辑
摘要:我们经常在抓取数据是碰到 数据重复的问题,除了radis数据库去重功能外,还有一种简便的过滤方法, 来来 我们直接上代码: pipelines.py中: 阅读全文
posted @ 2018-10-23 19:34 lvye001 阅读(889) 评论(0) 推荐(0) 编辑
摘要:newspaper用于爬取各式各样的新闻网站 1,安装newspaper 2,直接上代码 阅读全文
posted @ 2018-10-23 11:14 lvye001 阅读(1845) 评论(0) 推荐(0) 编辑
摘要:开发环境:Python 3.6.0 版本 (当前最新)Scrapy 1.3.2 版本 (当前最新) 请求和响应 Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该 阅读全文
posted @ 2018-10-20 11:22 lvye001 阅读(1242) 评论(0) 推荐(0) 编辑
摘要:spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co 阅读全文
posted @ 2018-10-20 11:21 lvye001 阅读(1936) 评论(0) 推荐(0) 编辑
摘要:如果连接直接这样写,看上去很直观,不过参数替换不是很方便,而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20 可以使用如下方式美化代码 from 阅读全文
posted @ 2018-10-20 11:20 lvye001 阅读(3508) 评论(0) 推荐(0) 编辑
摘要:首先是安装python-docx:(centos环境) pip install python-docx 基本方法使用: from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx 阅读全文
posted @ 2018-10-20 11:18 lvye001 阅读(865) 评论(0) 推荐(0) 编辑
摘要:这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子,用于修改 阅读全文
posted @ 2018-10-20 11:12 lvye001 阅读(207) 评论(0) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示