网上扒小说的小程序

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import requests
from bs4 import BeautifulSoup
  
 
def get_url(chap):
    url = 'http://www.cnblogs.com/...'
     
    return url + str(chap) + '.html'
 
 
 
def get_content(url, data=None):
    rep = requests.get(url, timeout=120)
    rep.encoding = 'utf-8'
    return rep.text
 
 
def get_data(htmltext):
    content = []
    bs = BeautifulSoup(htmltext, "html.parser")
    body = bs.body 
    html_data = body.find('div', {'class': 'panel-body'}).get_text()  
    return html_data
 
def mod_data(Num):
    url = get_url(Num)
    htmltext = get_content(url)     
    htmldata = get_data(htmltext)        
    return htmldata
 
if __name__ == '__main__':
 
    for i in range(2,3):
        Num = i
        name = '第'+ str(Num) +'章.txt'
        data_new = mod_data(Num)
         
        with open(name,"w") as f:
            f.write(data_new)

  

posted @   华小电  阅读(482)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示