利用Selenium爬取《三体》小说全文
Selenium是一个开源的自动化测试工具,利用Selenium可以模拟人对浏览器的操作,因此可以通过利用Slenium来爬取小说的全文,非常的简单易用。
from time import sleep #导入webdriver模块 from selenium import webdriver def santi(): #启动浏览器 santi_driver=webdriver.Chrome() for page in range(174,259): #输入对应小说网站的url santi_driver.get('https://www.51shucheng.net/kehuan/santi/santi1/%d.html'%page) #获取标题与正文内容 santi_biaoti=santi_driver.find_element_by_tag_name("h1").text santi_text=santi_driver.find_element_by_id("neirong").text wenzhang="\n\n"+santi_biaoti+"\n"+santi_text #存入本地文件 with open("text.txt","a+",encoding='utf-8') as file: file.write(wenzhang) sleep(3) santi_driver.quit() if __name__=='__main__': santi()
在IDE中运行脚本,小说便会自动下载到电脑里面啦,运行结束后,点开脚本所在文件夹,就可以看到被下载到本地辣~
posted on 2022-02-13 17:38 celine2sahara 阅读(273) 评论(0) 编辑 收藏 举报