当屌丝想看《蜀山剑侠传》[python屏幕抓取]

想看《蜀山》，就下载了蜀山剑侠传.txt.放在的电子书里。

但看了会觉得文件挺大的，电子书加载起来也挺慢了，也没下着分回目版的，就想着把它按章回拆分到的各个文件。

想想无非就是读取下文件，正则匹配一下，文件分割下，就完事大吉了。

coding时觉得这种方式肯定慢，不如去在线阅读的地方抓取一下。于是找到【蜀山剑侠传---还珠楼主---天涯在线书库】，把文件分割的问题变成屏幕抓取的问题。

code:

复制代码

from urllib import urlopen
import re

titleRe = re.compile('(?<="biaoti">).+?(?=</span>)')
contentRe = re.compile("(?<='content'>).+?(?=</td>)",re.DOTALL)

dirPath = 'f:\shushanjianxiazhuan\\'
urlPath = 'http://www.tianyabook.com/wuxia/huanzhulouzhu/shushanjianxiazhuan/'

for x in xrange(1,310):
    x = str(x)
    url = urlPath + x+ '.htm'
    page = urlopen(url).read()
    title = titleRe.search(page).group()
    content = contentRe.search(page).group()
    content = content.replace('<BR>','\n')
    f = file(dirPath+x+title+'.txt','w')
    f.write(title+'\n'+content)
    f.close()
    print title

复制代码

子在川上曰：《蜀山》是一部超级超级超级浪漫恢宏的作品，只可惜我早生了两千年。

posted @ 2012-10-27 16:46 码不能停阅读(1900) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· Linux系列：如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· 展开说说关于C#中ORM框架的用法！
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？

随笔分类

About

resume

评论排行榜

最新评论

1. Re:使用 readfile() 下载文件
我用这个方法，为什么下载都不下载 network是能看到将文件输出到浏览器了得好奇怪别人都可以
--一直在路上aiori
2. Re:markdown 书写表格
在线编辑Markdown table：
--usboy
3. Re:腾讯面试题：50个阶梯，你一次可以上一阶或两阶，走上去，共有多少种走法【原】
这是在考验你有没有看过算法这本书，有没有计算机的思维（这里是递归）。很明显，假设n个阶梯，你需要考虑第1个和n-1个的事情。
--q631263135
4. Re:腾讯面试题：50个阶梯，你一次可以上一阶或两阶，走上去，共有多少种走法【原】
@ heiheizh618F(100)=F(99)+F(98)明显比排列组合高级，建议你再认真看一下评论...
--码不能停
5. Re:腾讯面试题：50个阶梯，你一次可以上一阶或两阶，走上去，共有多少种走法【原】
@ 码不能停我看你的代码好像是对的，没仔细看。但是对你算法下面的疑问，我提出一点可能的意见。我写这个算法的时候，出问题就出在了算阶乘上，阶乘到10多阶的时候普通的int就溢出了，如果是50阶就更溢出了...
--heiheizh618