增补博客 第十二篇 python大作业小说阅读器(1)爬取

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
python 大作业 小说阅读器 这个代码是用来爬取下载小说的<br># 导入所需的库
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import html
import time  # 导入 time 模块
 
# 创建一个 Edge 的 WebDriver 实例
driver = webdriver.Edge()
 
# 打开网页
driver.get("https://www.bqg88.cc/finish/")
 
roll = 500
while True:
    h_before = driver.execute_script('return document.documentElement.scrollTop')
    time.sleep(1)
    driver.execute_script(f'window.scrollTo(0,{roll})')
    time.sleep(1)
    h_after = driver.execute_script('return document.documentElement.scrollTop')
    roll += 500
    print(h_after, h_before)
    if h_before == h_after:
        break
 
# 等待页面内容加载完成
wait = WebDriverWait(driver, 2)
# 更改等待条件为判断页面是否加载完成
wait.until(EC.presence_of_element_located((By.XPATH, '//div[@class="item"]')))
 
# 获取页面的 HTML 内容
page_source = driver.page_source
 
# 使用 lxml 解析 HTML
tree = html.fromstring(page_source)
 
# 使用 XPath 提取作者、标题和链接
authors = tree.xpath('//div[@class="item"]/dl/dt/span/text()')
book_titles = tree.xpath('//div[@class="item"]/dl/dt/a/text()')
links = tree.xpath('//div[@class="item"]/dl/dt/a/@href')
 
# 将爬取的数据存入文件
file_path = "..//分类小说链接记录//完本.txt"
with open(file_path, "w", encoding="utf-8") as f:
    for author, title, link in zip(authors, book_titles, links):
        f.write(f"作者: {author.strip()}\n")
        f.write(f"书名: {title.strip()}\n")
        f.write(f"链接: {link}\n\n")
 
# 关闭浏览器
driver.quit()

  

posted @   财神给你送元宝  阅读(12)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示