罗孚传说

RoverTang.com

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

维基百科的资料非常不错,所以准备下载一些下来,本来以为都要自己抓取,但结果维基百科自己开放了所有的数据给你下载,具体可以参见这个页面:

维基百科的开放的态度是出乎我的意料的:

维基百科提供所有完整内容的电子档案给有兴趣的使用者。这些资料可以被重复使用,当作镜像站点,或是个人使用,或是资料备份,或是分析。所有维基百科文章都在知识共享 署名-相同方式共享 3.0协议下发布,图片以及其他档案则可能以其他的许可证发布,详情参见Wikipedia:版权信息

当然,这样的开放是基于知识共享协议的,并且其中没有商业限制这一条。

大家可以去http://download.wikimedia.org/zhwiki/latest/下载最新的中文版的维基数据,其中前面几条的xml为最终的数据,不过这个xml仅仅包含了文字内容,并且是非常简单的文字内容,就像是简介一样,不是完整的页面。其余的压缩包的大多为数据库数据,当然这些数据库包含了页面信息文件信息等,由于太大我没有下载全部。顺便看了一下中文维基和英文维基的xml文件的大小,296M vs 2.6G,说明数据的差异有多大?由此可见我的分享上海众包计划没有进展也算是正常了。

我年前下载了2月2号的xml数据,今天最新的xml数据增加了3M。过年无聊就写了几行python语句,然后处理成了数据库,现在提供给大家下载。总数据条数为65536条,分成三栏数据,第一栏是名称,第二栏是维基百科的网页链接,第三栏是简要的说明,效果如下:

image

文件已经放在我的Google docs上了,不再限制文件类型我当然就用Google的作为免费下载空间了。地址:http://goo.gl/FZST (mdb格式,解压缩后86M) http://goo.gl/9Oei (xls格式,解压缩后17M)。

等等,还没有结束,再给大家送上一份维基百科的地理数据,就是带地理坐标的维基百科数据,啥时候下载的已经忘记了,哪里下载的也已经没有地址了,现在共享出来。要知道,这是一份全世界的地理数据哦,虽然从kmz文件来看只有6.5M,但如果解压缩出来的kml文件实际上为122M,如果你的电脑配置不够好,使用Google Earth加载这份数据基本上没戏,反正我是没有加载成功过,我只有通过其他软件打开,然后可以挑选出一部分数据来。从文件的日期上能够看到这个是08年初的一份数据,不知道原作者是如何提取出这份数据的,这份数据基本上就是Google Maps或Google Earth中显示的维基百科数据的离线版,不知道大家有什么好的方法下载维基百科的地理数据呢?我倒是想下载一些。而这份08年的数据实在是比较差的,可能和当时的维基百科数据量有关吧,但中国地区和国外地区的数据量差异也蛮大的,中国地区的差不多就只是一些城市的数据了,而城市内的位置信息(地标、公园、大厦甚至公司等等)基本上没有,其他国家的数据相对要比我们详细一些,看看中国的大城市上海的数据的稀疏程度就知道这是有多么的悲哀了:

image

好了,下载地址:http://goo.gl/HuMy 文件名为:Wikipedia_en_2008-03-12.kmz。

posted on 2010-02-27 09:25  Rover.Tang  阅读(6488)  评论(0编辑  收藏  举报