celine2sahara

利用Selenium爬取《三体》小说全文

Selenium是一个开源的自动化测试工具,利用Selenium可以模拟人对浏览器的操作,因此可以通过利用Slenium来爬取小说的全文,非常的简单易用。

from time import sleep
#导入webdriver模块
from selenium import webdriver
 
def santi():
    #启动浏览器
    santi_driver=webdriver.Chrome()
    for page in range(174,259):
        #输入对应小说网站的url
        santi_driver.get('https://www.51shucheng.net/kehuan/santi/santi1/%d.html'%page)
        #获取标题与正文内容
        santi_biaoti=santi_driver.find_element_by_tag_name("h1").text
        santi_text=santi_driver.find_element_by_id("neirong").text
        wenzhang="\n\n"+santi_biaoti+"\n"+santi_text
        #存入本地文件
        with open("text.txt","a+",encoding='utf-8') as file:
            file.write(wenzhang)
    sleep(3)
    santi_driver.quit()
if __name__=='__main__':
    santi()

  在IDE中运行脚本,小说便会自动下载到电脑里面啦,运行结束后,点开脚本所在文件夹,就可以看到被下载到本地辣~

 

posted on 2022-02-13 17:38  celine2sahara  阅读(273)  评论(0编辑  收藏  举报

导航