2013年9月1日

摘要: 导师的项目需要一大波数据,据称至少要几十个T(吐槽,哪里有那么多数据。。。),于是我开始每天在网上找rdf的数据。大多数数据都在国外的服务器上,联通的PPPoE很不稳定,而且数据集的大小也千差万别,从几个K到数十G,用Wget下载数据每次都需不停地去检查下载状态,输出日志。考虑了一下以后要与这个任务长期为伴了,所以写了几个脚本,让服务器自己下并且负责监控下载状态,一旦有下载失败或者某个数据集下载成功,就短信提醒我。嗯,遇到的问题一一记录在这里,脚本写完之后也贴在这里。1. 去重:!a[$0]++ "tmp"tmp中保存了多个记录,每行一个记录。记录有重复。我将tmp文件中的 阅读全文
posted @ 2013-09-01 10:31 甲马 阅读(994) 评论(0) 推荐(0) 编辑

导航