python3.7爬取墨菲定律保存在本地txt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
#!/usr/local/bin/python3.7
# -*- coding: utf-8 -*-
# @Time: 2019/07/15
# @Function 获取在线文本内容
 
import requests
from bs4 import BeautifulSoup
import re
import codecs
 
url = 'https://www.shuhaige.com/7518/'
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
    'Origin': 'https://www.shuhaige.com',
    'Host': 'www.shuhaige.com'
}
# 设置代理服务器
proxies = {
    'http:': 'http://121.232.146.184',
    'https:': 'https://144.255.48.197'
}
 
 
def getContent():
    contents = requests.get(url, headers=header).text
    html = BeautifulSoup(contents, 'html.parser')
    lists = html.select('dl')[0].select('a')
    for list in lists:
        itemUrl = f'https://www.shuhaige.com{list["href"]}'
        itemContent = requests.get(itemUrl, headers=header).text
        itemHtml = BeautifulSoup(itemContent, 'html.parser')
        saveToTxt(itemHtml.select('div .content')[0], list.string)
 
 
# 写入文本文件
def saveToTxt(comments, title):
    commentsList = ''
    for item in comments:
        comment_info = f'{item}'.replace(f'<br/>', '')
        comment_info = re.sub(f'<p>.*</p>', '', comment_info)
        commentsList += comment_info
    with codecs.open(f'MoFeiDingLv/{title}.txt', 'w', encoding='utf-8') as file:
        file.writelines(commentsList)
 
    print(f'{title}写入文件成功!')
 
 
getContent()

  书本内容来自 书海阁《墨菲定律》

posted @   SKILL·NULL  阅读(519)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
点击右上角即可分享
微信分享提示