python3.7爬取墨菲定律保存在本地txt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 | #!/usr/local/bin/python3.7 # -*- coding: utf-8 -*- # @Time: 2019/07/15 # @Function 获取在线文本内容 import requests from bs4 import BeautifulSoup import re import codecs url = 'https://www.shuhaige.com/7518/' header = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36' , 'Origin' : 'https://www.shuhaige.com' , 'Host' : 'www.shuhaige.com' } # 设置代理服务器 proxies = { 'http:' : 'http://121.232.146.184' , 'https:' : 'https://144.255.48.197' } def getContent(): contents = requests.get(url, headers = header).text html = BeautifulSoup(contents, 'html.parser' ) lists = html.select( 'dl' )[ 0 ].select( 'a' ) for list in lists: itemUrl = f 'https://www.shuhaige.com{list["href"]}' itemContent = requests.get(itemUrl, headers = header).text itemHtml = BeautifulSoup(itemContent, 'html.parser' ) saveToTxt(itemHtml.select( 'div .content' )[ 0 ], list .string) # 写入文本文件 def saveToTxt(comments, title): commentsList = '' for item in comments: comment_info = f '{item}' .replace(f '<br/>' , '') comment_info = re.sub(f '<p>.*</p>' , '', comment_info) commentsList + = comment_info with codecs. open (f 'MoFeiDingLv/{title}.txt' , 'w' , encoding = 'utf-8' ) as file : file .writelines(commentsList) print (f '{title}写入文件成功!' ) getContent() |
书本内容来自 书海阁《墨菲定律》
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义