分享制作精良的知识管理系统 博客园博客备份程序 Site Rebuild

知识管理系统Data Solution研发日记已经写出了七篇,不断收到朋友们的反馈,希望能提供软件下载。在紧张了忙碌了两个星期后,Data Loader程序又有了明显的进步。新的界面效果如下图所示

image

现在一共有20个应用程序组,以帮助下载,解析和呈现文档数据和互联网网页数据。

今天要推荐的程序是博客备份程序。我知道博客园在后台提供了对博主文章的备份工具,可以导出为XML格式,然后在一个小应用程序中打开查看。但是,这个功能仅仅限制于博主本人,如果需要对自己喜欢的博客文章进行备份,显然要另想办法。其次,我想把博客备份成doc格式的WORD文档,而不是html网页,也不能是mht文件。html文件为把图片另存到一个与网页同名的文件夹中,会有很多文件,不喜欢这种格式,此外,如果不能连网,图片将无法显示,这一点,对于一个博客备份程序来说,是不可原谅的。也考虑过mht文件,它把图片和网页都存到一个单一文件中,这一点非常好,问题是,除了IE(或其他的浏览器)可以打开它之外,以编程的方式读写这个文件,非常的困难。使用WebBrowser控件,性能很糟糕,打开一个小文件,需要很长时间,所以,mht格式的Performance不可接受。当然,如果你喜欢mht格式,可以使用Data Loader应用程序组中的User ID Blog, Url Blog,Text Blog, Default Blog这四个程序,它们都是将网页存成mht格式的文件。所以,最终敲定的备份格式是DOC格式,可以用WORD编辑。

打开Site Rebuild程序,界面如上图所示,它会自动加载当前目录中的Cnblogs.txt文件。在这个文件中,我列举出了博客园中的前1000名的博客地址,以供分析下载。地址的例子如下

-http://www.cnblogs.com/Terrylee/
-http://www.cnblogs.com/dudu/

在前面有一个短线,表示忽略,不备份这个地址的博客。如果你要备份博客园管理员dudu的所有博客,可以把前面的短线去掉,像这样http://www.cnblogs.com/dudu/,每个地址用换行分开工。这样,程序内部会分析所有的dudu的博客,把它下载下来。最后你看到的效果是这样

image

如果网速可以,8个小时内,可以下载10G以上的博客文章。数以万计的博客文章,它的位置由互联网服务器变成了自己的本机磁盘,这种放心的感觉,我想你肯定喜欢。

解释一下Site Rebuild的逻辑,它会分析博主的所有文章,并把它保存到当前目录下面,先以html文件保存,然后转换成doc格式,再转换成rtf格式。所以,当执行完成后,你可以把doc目录中的文档拷贝走。如果你不想重复的下载已经备份过的博客文章,可以打开Setting程序,设置Downloaed Path的路径,这里存放已经下载过的博客文章。如果它已经存在,则不会重复下载。

image

Connection String用于文档的处理。博客的下载备份只是一个小组件,它的重头戏在于,可以导入到数据库中,然后以联机的方式查看。如下图所示,下载完成后,会自动启动导入程序,

image

之后,再打开Document Explorer进行浏览,以联机的方式查看,如图

image

所有的文档都进入到SQL Server数据库中,使用应用程序或是Web界面浏览文档数据库中的程序,还可以搜索,查找,备份迁移。关于数据库部分,稍后会有文章介绍配置数据库,以导入所下载的文章。

Site Rebuild中还有Codeproject,MSDN,CSDN,Dotblogs,51CTO,这几个程序暂时不可用,Any是可用的,如果你不喜欢全部的博主文章备份,比如你只想备份http://www.cnblogs.com/javabin/archive/2011/11/02/2233381.html中的文章,那就把地址写进去,它只会备份这一个地址中所有的联接的文章。

 

请到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下载最新版本的Data Loader应用程序。如果你有改善的意见或是好的想法,请发邮件到JamesLi2015@hotmail.com ,我们一起来把它做成好用,灵活的博客备份程序。

posted @ 2011-11-10 09:15  信息化建设  阅读(4307)  评论(34编辑  收藏  举报