使用Selenium做网站登录的免验证
我发现,我已经三年多没有更新博客了。这几年一直感觉没什么可写的,工作上没遇到的问题python的不多,主要是前端页面上遇到的问题,感觉写起来比较困难,一写就要贴上去很多代码,还没什么必要,不贴又说不明白,所以干脆不写了。
今年开始研究新玩意儿了——爬虫。俗话说,爬虫爬得好,牢饭吃到饱(不是)。以前感觉爬虫太烦了,所以一直没去研究。但工作需要,没办法,还是得硬着头皮上了(我真没有在搞什么违法的事情啊)。
其实我做的这个爬虫也算是比较简单的那种,用Selenium登录某网站系统,在某个页面抓取一些实时的聊天信息,并加以回复。具体哪个网站我就不说了,抓取页面元素也很简单,关键难在了登录免验证的过程。
一般的网站套路是比较固定的,第一次登录之后,把cookie保存下来,以后再打开这个网站的登录页,加载cookie然后刷新一下,就ok了。
保存cookie:
1 def save_cookies(): 2 # 我这里用pickle来序列化的,也可以用json 3 # 在登录网站之后,cookie中就保存了用户已登录的信息,driver.get_cookies()就可以获得这些cookie,保存在本地即可 4 cookie_filename = "cookies_xxx.pickle" 5 with open(cookie_filename, "wb") as f: 6 pickle.dump(driver.get_cookies(), f)
加载cookie:
1 def load_cookies(driver): 2 # 获得本地保存的cookie 3 filename = "cookie_xxx.pickle" 4 # 读取cookie内容 5 with filename(path, 'rb') as file: 6 cookies = pickle.load(file) 7 # 加载到driver 8 for c in cookies: 9 driver.add_cookie(c) 10 11 12 # 需要先打开要登录的网站,否则加载cookie时会报域名不匹配的异常 13 # selenium.common.exceptions.InvalidCookieDomainException: Message: invalid cookie domain 14 driver.get("https://login.xxx.com") 15 # 加载cookie前清理掉之前的cookie,这句有些网站不需要 16 driver.delete_all_cookies() 17 # 加载cookie 18 load_cookies(driver) 19 # 已经加载好了,可以去你想去的页面了。如果想在当前页面,就刷新下页面 20 driver.refresh() # 刷新页面,原地不动的情况下使用,要跳转的话可以不用 21 driver.get("https://aaa.xxx.com/bbb/") # 跳转到你想去的页面就好了
但我现在爬的这个网站就很棒棒,加载cookie后刷新,不生效,依然停留在登录页面。我试过各种姿势加载cookie,还把保存下来的cookie和手动登录后的cookie对比(好像也没什么区别啊),始终不行。
但是我发现,我手动登录网站的话,不退出账号就关闭浏览器,再次打开浏览器打开网站,是不用登录的,这说明cookie本身是没问题的。所以我猜测,网站是发现了我的机器行为。于是下一步我开始研究,selenium在初始化webdriver时候的那堆选项,也就是options。我借鉴了一些博客中写的常用的option,最终初始化webdriver的方法如下:
1 def init_driver(): 2 options = Options() 3 options.add_argument("--user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36") # 模拟人为操作user-agent肯定需要的 4 options.add_argument("--disable-blink-features=AutomationControlled") # 检查是否为软件自动控制 5 options.add_argument("--ignore-certificate-errors") # 忽略证书错误 6 options.add_argument("--ignore-ssl-errors") # 忽略ssl错误 7 options.add_argument('--disable-gpu') # 关闭GPU加速 8 options.add_argument('--no-sandbox') # 以最高权限运行 9 options.add_argument('--log_level=3') # 日志级别(在命令行里不会报一堆干扰信息) 10 options.add_experimental_option('excludeSwitches', ['enable-automation']) # 也是检查是否为软件自动控制 11 options.add_experimental_option("useAutomationExtension", False) # 还是检查是否为软件自动控制 12 options.add_experimental_option("detach", True) # 程序结束时浏览器不会自动关闭 13 _driver = webdriver.Chrome(options=options) 14 return _driver
信心满满的打开网站再试,果然!
还是不行。
但是琢磨了一段时间后,我突然想到,我在一个页面看到的一个option写法:
1 options.add_experimental_option("debuggerAddress", "127.0.0.1:9527")
它的意思是说,用远程调试模式,连接本地9527端口的chrome。这不就是说,它可以用我原来的浏览器,打开网站时候加载原来的cookie,然后就可以免登录了?
也许是个办法,我得试一下。
这个方法要求本地的chrome在启动的时候带参数:
--remote-debugging-port=9527
我有两种办法启动它,一种是,在命令行,输入chrome的位置,后面加上参数;另一种方法是,使用快捷方式。当然用后者啊!
快捷方式就在桌面上,右键,属性,在“目标”那一行最后加上参数,确定即可。
最后要注意的就是,用这个方法的话,必须得先用这个快捷方式打开浏览器,这就相当于在9527端口开了个服务器,然后我的程序就可以连接使用了。
好奇怪的操作有木有!既然这样,我干嘛不写代码执行呢?先打开带参数的浏览器,再让程序去连接它?
简单,一行代码搞定!
1 os.system(os.path.abspath(os.path.join(os.path.expanduser("~"), "AppData\\Local\\Google\\Chrome\\Application\\chrome.exe")) + " --remote-debugging-port=9527")
结果无效。
先关掉浏览器,再掐掉程序(程序是在命令行下执行的,如果不关闭浏览器的话Ctrl+C中止不了程序),就着命令行的错误看了一下,程序是在连接127.0.0.1:9527 浏览器的时候卡住了。也就是说,用os.system执行命令打开浏览器这种方法不行。
接下来我又尝试了subprocess.run,subprocess.call,subprocess.getoutput,都不行。就在我走投无路的时候,我突然发现了os.startfile函数:
os.startfile(os.path.abspath(os.path.join(os.path.expanduser("~"), "Desktop\\Google Chrome.lnk")))
再次尝试,成功,可以正常打开桌面的chrome浏览器的快捷方式,打开网站,并在第一次登录之后,以后再来到网站时候都可以直接打开网页,不用再次登录了。接下来就可以愉快地爬我需要的信息了。
其实做到现在这样子,还是有一点小瑕疵的:我需要手动在chrome的快捷方式后面加个参数。虽说只是部署时的一次性工作,但是,为什么不用代码来添加呢?不过,那是另一个问题了。
(写了一篇新的随笔:https://www.cnblogs.com/anpengapple/p/18189293 ,就是处理windows快捷方式的)
本文原创自博客园文章,想了解python相关技巧,欢迎到我的博客踩踩~
地址:http://www.cnblogs.com/anpengapple/