随笔分类 - 爬虫
1
摘要:import os from imagededup.methods import PHash phasher = PHash() def process_file(img_path): # 生成图像目录中所有图像的二值hash编码 encodings = phasher.encode_images(
阅读全文
摘要:废话不多说,直接上代码 from selenium import webdriverfrom selenium.webdriver import ChromeOptionsimport timeimport refrom selenium.webdriver.support import expec
阅读全文
摘要:反屏蔽 现在很多网站都加上了对 Selenium 的检测,来防止一些爬虫的恶意爬取。即如果检测到有人在使用 Selenium 打开浏览器,那就直接屏蔽。 其大多数情况下,检测基本原理是检测当前浏览器窗口下的 window.navigator 对象是否包含 webdriver 这个属性。因为在正常使用
阅读全文
摘要:首先安装 selenium可以直接可以用pip安装。 pip install selenium 接下来安装谷歌驱动,chromedriver的安装一定要与Chrome的版本一致。 安装地址如下: 1、http://chromedriver.storage.googleapis.com/index.h
阅读全文
摘要:icrawler基本用法 内置爬虫 该框架包含6个内置的图像抓取工具。 谷歌 bing 百度 Flickr 通用网站图片爬虫(greedy) UrlList(抓取给定URL列表的图像) 以下是使用内置抓取工具的示例。 搜索引擎抓取工具具有相似的界面。 第一步: pip install icrawle
阅读全文
摘要:前言: 相信大家很多人都看过youtube网站上的视频,网站上有很多的优质视频,清晰度也非常的高,看到喜欢的想要下载到本地,虽然也有很多方法,但是肯定没有python 来的快, 废话不多说,上代码: https://www.bilibili.com/read/cv14499590教程 https:/
阅读全文
摘要:点击上面的按钮,上传图片,返回该图片相似商品信息 我们上传图片过程中,获取到图片上传url,以及需要携带的请求头信息, 废话不多说,直接上代码 注:请注意请求频率,若不间断请求10次,则会出现取不到name值,这就需要更换账号,cookies值。 运行结果如下: 注意:此代码仅供学术交流,禁止商业
阅读全文
摘要:Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动化操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。
阅读全文
摘要:废话 不多说,直接上代码,不懂得看注释 先安装 pip install aiohttp 注:window最大线程数 512,所以任务数不要超过这个值,否则 抛出异常
阅读全文
摘要:废话不多说,直接上代码,将数据存入Mongdb 简述:拉勾网反爬一般,也就是先获取该搜索页面中的 cookies信息,然后添加到返回的json数据接口中。
阅读全文
摘要:先看看scrapy的框架流程, 1,安装 scrapy 链接 查看即可。 2,新建scrapy项目 目录结构图 3,cd到项目名下,创建任务。 参数解析: name,定义spider的名字的字符串,必须是唯一的,name是spider的最重要的属性,而且是必须的allowed_domains可选,包
阅读全文
摘要:手动安装twisted插件: 1.在http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted用Ctrl+F搜索twisted,下载对应版本。 2.用pip安装wheel(whl安装依赖) 用命令行进入Python35\Scripts目录,执行 3.把下载下
阅读全文
摘要:爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip。爬取第二层url时验证码出现次数更严重(和第一层验证码完全不一样),一开始也用更换代理,但是感觉不怎么解决问题,后来利用selenium自动打开该页面,并把验证码图片抓取下来,然后发现抓下来的并不是页面中的真实验证码,估计是网站加密的原因。后...
阅读全文
摘要:我们经常在抓取数据是碰到 数据重复的问题,除了radis数据库去重功能外,还有一种简便的过滤方法, 来来 我们直接上代码: pipelines.py中:
阅读全文
摘要:newspaper用于爬取各式各样的新闻网站 1,安装newspaper 2,直接上代码
阅读全文
摘要:开发环境:Python 3.6.0 版本 (当前最新)Scrapy 1.3.2 版本 (当前最新) 请求和响应 Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该
阅读全文
摘要:spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co
阅读全文
摘要:如果连接直接这样写,看上去很直观,不过参数替换不是很方便,而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20 可以使用如下方式美化代码 from
阅读全文
摘要:首先是安装python-docx:(centos环境) pip install python-docx 基本方法使用: from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx
阅读全文
摘要:这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子,用于修改
阅读全文
1