爬取吞噬星空小说

import requests
import re

url = "https://www.777zw.net/2/2142/751765.html"


with open('tunshixingkong.txt', 'a', encoding='utf8') as f:
    for i in range(5000):
        try:
            r = requests.get(url)
            r.encoding = 'gbk'
            url = re.findall('<a href="(.*?)">下一章</a>', r.text)[0]
            url = url.split(';')[-1]
            url = re.findall('<a href="(.*?).html', url)[0]
            url = f"https://www.777zw.net/2/2142/{url}.html"
            title = re.findall('<h1>(.*?)</h1>', r.text)[0]
            content = re.findall('id="content">(.*?)</div>', r.text)[0].strip('&nbsp;').replace("<br /><br />&nbsp;&nbsp;&nbsp;&nbsp;","\n")

            f.write(title+'\n'+content+'\n'*2)
            print(f'第{i+1}章')
        except:
            print('defeat!')
            print(url)

posted @ 2022-02-03 20:07 乡镇做题家阅读(246) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 生成词库云

· socket爆破

· PYTHON>>爬虫爬取小说

· Python爬取小说(3)整本爬取

· 小说下载器

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

公告

昵称：乡镇做题家
园龄： 3年5个月
粉丝： 0
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

乡镇做题家

爬取吞噬星空小说

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜