
1 #导入相关model
2 from bs4 import BeautifulSoup
3 import requests
4 import re
5
6 #获取目标链接地址
7 url = 'http://www.biquyun.com/0_292/'
8 reponse = requests.get(url)
9 reponse.encoding = 'gbk' #设置编码方式,可在网页源码头部查到
10 html = reponse.text
11
12 #获取各章节链接和标题
13 #审查元素, 找到小说章节的代码位置, 找出其对应的标签, 进行正则匹配
14 dl = re.findall(r'<dd><a href="(.*?)">(.*?)</a>', html, re.S) #返回list类型
15 j=0 #计数, 只获取前30章, 多了结果要很久才出来
16
17 #进行章节内容获取
18 for chapter in dl:
19 if j >= 30:
20 break
21 #获取章节链接,名字.等价于c_link=chapter[0]; c_title=chapter[1]
22 chapter_link, chapter_title = chapter
23 #补全链接,因为之前获取的只是链接的尾部
24 chapter_link = "http://www.biquyun.com%s" % chapter_link
25
26 #仿照之前的再写一遍
27 chapter_reponse = requests.get(chapter_link)
28 chapter_reponse.encoding='gbk'
29 chtml = chapter_reponse.text
30 #找到小说章节正文所在标签
31 chapter_content = re.findall(r'<div id="content">(.*?)</div>', chtml,re.S)
32 #将它们转换为字符串,因为list无法进行replace操作
33 t = str(chapter_title)
34 s = str(chapter_content)
35 #替代好空格,换行, 以及列表的左右中括号
36 s = s.replace(' ','').replace('<br />',"\n").replace('\\r\\n','')
37 s = s.replace(']',"\n").replace('[',' ').replace
38 #新建txt文件,并将其名字设置为章节名, 写入
39 f = open('E:/temp/zhuxian/%s.txt' % chapter_title, 'w')
40 f.write(t)
41 f.write('\n')
42 f.write(s)
43 j = j+1
44 print('ok')
45 f.close()
46 ''' s = s.replace('[','')
47 s = s.replace('<br />',"\n")
48 s = s.replace('\\r\\n','')'''

【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· [翻译] 为什么 Tracebit 用 C# 开发
· 腾讯ima接入deepseek-r1,借用别人脑子用用成真了~
· Deepseek官网太卡,教你白嫖阿里云的Deepseek-R1满血版
· DeepSeek崛起:程序员“饭碗”被抢,还是职业进化新起点?
· RFID实践——.NET IoT程序读取高频RFID卡/标签