随笔分类 - Spider
摘要:参考链接 大家知道有些网站是会员制,而且对会员所用的机器会有一个绑定,这就意味着一个用户只能在固定的机器上或浏览器上登陆,如果换了电脑或浏览器那很不幸,请联系商家解绑,类似的还有某些企业通过下载终端的方式进行绑定,当然这样对用户体验有很大的影响,总而言之都是为了保护企业的利益,你懂的!言归正传,既然
阅读全文
摘要:①验证码处理: 现在许多网站需要登录,在这过程中很多会有验证码,有些简单的数字验证码可以直接通过二值化、灰度处理、降噪,最后直接用python的一些模块如: tessertocr进行识别.复杂一点的验证码,如:极验验证、12306等操作起来相对复杂,有的更需要借助机器学习来完成识别,这里就不详述;
阅读全文
摘要:我们的信息都是放到redis的缓存中,结构为list,如果知道特定的值的话,通过LREM key count value这样就可以。对于redis的list结构,获取某个位置的值通过 LINDEX key index,如果想要获取list的长度,通过LLEN key来获取。对于list中特定值的删除
阅读全文
摘要:方法一:微博登录 方法二:保存cookie 先保存cookie 再次登录无需验证
阅读全文
摘要:1 click(on_element=None) ——单击鼠标左键 2 click_and_hold(on_element=None) ——点击鼠标左键,不松开 3 context_click(on_element=None) ——点击鼠标右键 4 double_click(on_element=None) ——双击鼠标左键 5 drag_and_drop(source, target...
阅读全文
摘要:1 from hashlib import md5 2 from selenium import webdriver 3 import time 4 import requests 5 from selenium.webdriver import ActionChains 6 from PIL im
阅读全文
摘要:通常在进行网络数据采集时候我们会用到requests,urllib等模块,但是这些模块在使用中并不支持异步,所以今天我们介绍一个支持异步网络请求的模块aiohttp. 首先我们使用flask简单的搭一个服务器: 下面是通过aiohttp进行的异步访问 : 结果 : i am xiaoming i a
阅读全文
摘要:首先来了解几个概念 : event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。程序是按照设定的顺序从头执行到尾,运行的次数也是完全按照设定。当在编写异步程序时,必然其中有部分程序的运行耗时是比较久的,需要先让出当前程序的
阅读全文
摘要:selenium是用来完成浏览器自动化相关的操作.可以通过代码的形式制定一些基于浏览器自动化的相关操作(行为动作),当代码执行后,浏览器就会自动触发相关的事件.但这并不能避免服务器的检测.当在浏览器中打开开发者工具输入window.navigator.webdriver时会显示true,说明被服务器
阅读全文
摘要:from selenium import webdriver import requests,os from lxml import etree from selenium.webdriver.chrome.options import Options from urllib import request chrome_options = Options() chrome_options.ad...
阅读全文
摘要:import http.client, mimetypes, urllib, json, time, requests ###################################################################### class YDMHttp: apiurl = 'http://api.yundama.com/api.php' ...
阅读全文