随笔分类 -  Spider

摘要:参考链接 大家知道有些网站是会员制,而且对会员所用的机器会有一个绑定,这就意味着一个用户只能在固定的机器上或浏览器上登陆,如果换了电脑或浏览器那很不幸,请联系商家解绑,类似的还有某些企业通过下载终端的方式进行绑定,当然这样对用户体验有很大的影响,总而言之都是为了保护企业的利益,你懂的!言归正传,既然 阅读全文
posted @ 2020-04-29 15:19 屁桃 阅读(4295) 评论(0) 推荐(1) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2020-04-07 16:58 屁桃 阅读(17) 评论(0) 推荐(2) 编辑
摘要:①验证码处理: 现在许多网站需要登录,在这过程中很多会有验证码,有些简单的数字验证码可以直接通过二值化、灰度处理、降噪,最后直接用python的一些模块如: tessertocr进行识别.复杂一点的验证码,如:极验验证、12306等操作起来相对复杂,有的更需要借助机器学习来完成识别,这里就不详述; 阅读全文
posted @ 2020-04-07 12:23 屁桃 阅读(440) 评论(0) 推荐(0) 编辑
摘要:我们的信息都是放到redis的缓存中,结构为list,如果知道特定的值的话,通过LREM key count value这样就可以。对于redis的list结构,获取某个位置的值通过 LINDEX key index,如果想要获取list的长度,通过LLEN key来获取。对于list中特定值的删除 阅读全文
posted @ 2019-07-17 13:06 屁桃 阅读(26745) 评论(0) 推荐(0) 编辑
摘要:方法一:微博登录 方法二:保存cookie 先保存cookie 再次登录无需验证 阅读全文
posted @ 2019-07-09 18:52 屁桃 阅读(782) 评论(0) 推荐(1) 编辑
摘要:一.settings文件配置 二.对redis进行配置 阅读全文
posted @ 2019-06-25 10:17 屁桃 阅读(217) 评论(0) 推荐(0) 编辑
摘要:1 click(on_element=None) ——单击鼠标左键 2 click_and_hold(on_element=None) ——点击鼠标左键,不松开 3 context_click(on_element=None) ——点击鼠标右键 4 double_click(on_element=None) ——双击鼠标左键 5 drag_and_drop(source, target... 阅读全文
posted @ 2019-06-18 17:24 屁桃 阅读(808) 评论(0) 推荐(0) 编辑
摘要:1 from hashlib import md5 2 from selenium import webdriver 3 import time 4 import requests 5 from selenium.webdriver import ActionChains 6 from PIL im 阅读全文
posted @ 2019-06-18 12:13 屁桃 阅读(434) 评论(0) 推荐(0) 编辑
摘要:通常在进行网络数据采集时候我们会用到requests,urllib等模块,但是这些模块在使用中并不支持异步,所以今天我们介绍一个支持异步网络请求的模块aiohttp. 首先我们使用flask简单的搭一个服务器: 下面是通过aiohttp进行的异步访问 : 结果 : i am xiaoming i a 阅读全文
posted @ 2019-05-07 20:39 屁桃 阅读(390) 评论(0) 推荐(0) 编辑
摘要:首先来了解几个概念 : event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。程序是按照设定的顺序从头执行到尾,运行的次数也是完全按照设定。当在编写异步程序时,必然其中有部分程序的运行耗时是比较久的,需要先让出当前程序的 阅读全文
posted @ 2019-05-06 22:06 屁桃 阅读(361) 评论(1) 推荐(1) 编辑
摘要:selenium是用来完成浏览器自动化相关的操作.可以通过代码的形式制定一些基于浏览器自动化的相关操作(行为动作),当代码执行后,浏览器就会自动触发相关的事件.但这并不能避免服务器的检测.当在浏览器中打开开发者工具输入window.navigator.webdriver时会显示true,说明被服务器 阅读全文
posted @ 2019-05-06 21:02 屁桃 阅读(5800) 评论(9) 推荐(3) 编辑
摘要:from selenium import webdriver import requests,os from lxml import etree from selenium.webdriver.chrome.options import Options from urllib import request chrome_options = Options() chrome_options.ad... 阅读全文
posted @ 2019-05-06 17:51 屁桃 阅读(276) 评论(0) 推荐(0) 编辑
摘要:import http.client, mimetypes, urllib, json, time, requests ###################################################################### class YDMHttp: apiurl = 'http://api.yundama.com/api.php' ... 阅读全文
posted @ 2019-05-05 17:38 屁桃 阅读(1164) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示