爬虫之利用selenium绕过js加载
1|0契子
最近发现在ip被tx及其他大量收购,强取的背景下,网络小说很难诞生出有高质量的作品,为此,我计划爬取某个网站100本(再多就暴了)比较优质往年的小说解决精神上的匮乏
2|0构思
- 一个针对小说的下载函数rar_down
- 筛选优质小说的函数score_select: 根据网友投票和自己的判断条件选择是否爬取
3|0实现
- 下载只需要用xpath爬取到下载地址,然后写入目录即可
为了保护网站服务器网址就不放了
- 选取: 在筛选评分的时候发现评分是js动态加载的,requests无法得到,试过requests-html也没有用,求助同学,突然想起来selenium可以动态加载(
虽然时间复杂度肯定会变大了)
解决思路:用上次学校打卡使用的selenimu+无可视化+find_element对得分获取与加工
- 最后是导入的包和main函数筛选代码
4|0大功告成
__EOF__

本文作者:InsiApple
本文链接:https://www.cnblogs.com/InsiApple/p/16819707.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文链接:https://www.cnblogs.com/InsiApple/p/16819707.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文来自博客园,作者:InsiApple,转载请注明原文链接:https://www.cnblogs.com/InsiApple/p/16819707.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· 因为Apifox不支持离线,我果断选择了Apipost!