当屌丝想看《蜀山剑侠传》[python屏幕抓取]
想看《蜀山》,就下载了蜀山剑侠传.txt.放在的电子书里。
但看了会觉得文件挺大的,电子书加载起来也挺慢了,也没下着分回目版的,就想着把它按章回拆分到的各个文件。
想想无非就是读取下文件,正则匹配一下,文件分割下,就完事大吉了。
coding时觉得这种方式肯定慢, 不如去在线阅读的地方抓取一下。于是找到【蜀山剑侠传---还珠楼主---天涯在线书库】,把文件分割的问题变成屏幕抓取的问题。
code:
from urllib import urlopen
import re
titleRe = re.compile('(?<="biaoti">).+?(?=</span>)')
contentRe = re.compile("(?<='content'>).+?(?=</td>)",re.DOTALL)
dirPath = 'f:\shushanjianxiazhuan\\'
urlPath = 'http://www.tianyabook.com/wuxia/huanzhulouzhu/shushanjianxiazhuan/'
for x in xrange(1,310):
x = str(x)
url = urlPath + x+ '.htm'
page = urlopen(url).read()
title = titleRe.search(page).group()
content = contentRe.search(page).group()
content = content.replace('<BR>','\n')
f = file(dirPath+x+title+'.txt','w')
f.write(title+'\n'+content)
f.close()
print title
import re
titleRe = re.compile('(?<="biaoti">).+?(?=</span>)')
contentRe = re.compile("(?<='content'>).+?(?=</td>)",re.DOTALL)
dirPath = 'f:\shushanjianxiazhuan\\'
urlPath = 'http://www.tianyabook.com/wuxia/huanzhulouzhu/shushanjianxiazhuan/'
for x in xrange(1,310):
x = str(x)
url = urlPath + x+ '.htm'
page = urlopen(url).read()
title = titleRe.search(page).group()
content = contentRe.search(page).group()
content = content.replace('<BR>','\n')
f = file(dirPath+x+title+'.txt','w')
f.write(title+'\n'+content)
f.close()
print title
子在川上曰:《蜀山》是一部超级超级超级浪漫恢宏的作品,只可惜我早生了两千年。
分类:
python
标签:
python 屏幕抓取
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?