【TREC】TREC LOG
终于报名参加了TREC,从去年12月份开始申请11年的数据起,折腾了好久。写个LOG吧,看看自己一步步走过来的脚印,自恋下,顺便反省下。
----------------------------------------------------------------------------------------------------------------------------
LOG 1. 毕设定题目为短文本的话题检测与跟踪,做了一些数据的调查知道了这个比赛。
LOG 2. 求教了TREC的administrator,了解了一些有关TREC的一些事项,如参赛时间资格等等,发现国外的administrator都很nice,回了老长老长的信,还和我说这个比赛就算最后得不到结果也没关系。感动到了袅。
LOG 3. 开始动心思想参加这个比赛袅,加入了TREC的google group,有次一个人问到了TREC数据集的下载,MicroBlog Track的“主管”说只要你填个申请表就能下载到twitter的数据,只是你不能把数据给别人。感觉TREC真够意思。
LOG 4. 填了TREC 2011的数据申请表格,找老高签字,扫描发过去了,还特地把实验室夸了一通。嗯……HOHO~
LOG 5. 下载数据愁到了……先是捣鼓工具,我对Linux那套是完全知らない。看到用到Hadoop的包还以为要装Hadoop……于是我捣了一天装上去了,发现根本用不到。装了Cygwin,装了ant,工具终于下完了,可是在命令行下工具报错……咋办捏,求助师兄,师兄闹了半天也不行,说你直接扔MyEclipse里呗,于是俺扔进去了,能跑了。只是Twitter上不了自然也爬不了。不知道那个墙墙是不是有自适应能力,每次跑下这个程序google就上不去好久。可怜的谷歌君。
LOG 6. 数据太大,又要FQ,间歇性看到墙就怨念。网上各种搜无意间看到厦大一个老师弄过这个,于是翻网上厦大老师主页找到那个老师,弱弱的发信去问。那个老师还蛮好的,回信说她是找国外认识的人下的,老师还很nice的建议了亚马逊。
LOG 7. 问了吴珂,吴珂说可以用代理,用亚马逊也可以,但是要注意他提供的免费服务的限制,如带宽什么的。可是1Tbyte啊,实在吃力。想转投kdd,kdd太恐怖了,而且不知道为什么就是想做这个。于是又group里发信问别人的一些下载情况。于是乎,闹笑话了。原来数据解压后是18Gbyte的。噗……太好了。
LOG 8. 注册了亚马逊,亚马逊的一年免费服务实在太给力了。只是绑了张信用卡。阿门,希望不会背到超支,否则银子哗哗的……
LOG 9. 尝试着用亚马逊的机器,亚马逊Free的服务里提供Windows的服务器。挺好的,但是不知道怎么把数据传上去,师兄帮忙倒腾了ssh和putty,可是连不上去。可能还是权限问题吧。于是就把自己打的包放到自己服务器上,再从亚马逊的服务器上联网下载。
LOG 10. 由于原工具不能用,所以自己改了tool的程序,自己电脑上测试成功,可是放到服务器上:Connection Time Out。想屎。因为项目的事情也有,所以现在每天是double 线程,不对,triple,偷偷玩玩游戏啥的。好消息是,TREC报名成功了。因为绑的是老高的邮箱(因为需要是机构的头头的邮箱),所以信件转来转去费了些时间。
LOG 11. 查了论坛,论坛上列了12345五条原因,看来看去还是连接太多服务器过载比较合适。于是又把电脑扛回去研究了下工具,修改了参数什么的,弄成就一条请求,打包上去可以连接了,也下到了,可是写数据的时候出问题了……Hadoop需要Linux内核。泪奔。
LOG 12. 关掉了我可爱的windows instance,欲哭无泪。亚马逊的网站刷的一个慢,刷个网页得大5分钟。重新lanch了。
LOG 13. 开了一个Ubuntu的instance,ssh连上后发现scd和sftp被禁掉了,每次都permission denied,各处找帖子问人没着落,想要不还是用回windows吧。
LOG 14. 很开心,google+和group解禁了,去group看以前的帖子的时候发现好多人问在windows上的问题,有人说可以用cgywin的包,于是在windows的实例上上载了cygwin的bin包,问了师兄用命令行修改了PATH路径:call set PATH=%PATH%;C:\...\bin。问题解决,可以下了
LOG 15. 又是Connection time out的问题,修改了程序将每个块也都分割了。结果跑了两个后还是有这个问题,查了windows server 2003的这个问题,修改了IIS->Web Sites-->properities-->time limit 设成300s。可是下了大概50个之后就开始不下了,悲催。。。
LOG 16. 重头开始。
LOG 17. 问了吴珂有关proxy的东西,他很nice的把proxy的一些程序给我了,我找了一些proxy下了下,不行……唉~ 各种无奈啊~ 因为数据集出来要五月的样子,所以索性就放了放,先做别的。
LOG 18. 愚人节做了一个TREC报告,介绍了上次比赛的一些情况和方法,顺便在讨论班里鼓吹了下这个比赛。嘻嘻~ 师姐说有空可以来弄下,开心开心~ PC也说可以,嗯嗯,八错八错~ 不过实验室里没有闲人的,大家都很忙,主要还是自己要先迈出去。老高说,不能做成最后一名啊,额~ 可是这个比赛没有名次啊~ 哈哈哈~
LOG 19. 最近一直没管这茬,4月20号放出风来说还是用以前的数据集,瞎了~早知道先把2011下下来了,因为考虑到要麻烦同学,所以就想麻烦一次就算了。。。。。
LOG 20. 数据集还是挺大的,为了防止太麻烦别人,就先把功课做足了,譬如把程序合并,变成不需要人操控的~ 对哈,如果这样的话就算不是计算机的同学也可以帮忙吧?诶~这倒是好办法。
LOG 21. 要做项目,老高给了期限,要在5月16号把项目做完。因为里面遇到一个比较棘手的bug,所以拖了三天最后完成了。
LOG 22. 师兄说他上课听到其他实验室的人也在做twitter的数据,让我发信去问,我发信问了相关的老师,老师们都很nice的回复了,因为数据不一样最后借了个VPS下载。终于可以下了可是速度很慢,差不多下载一个地址列表文件的时间在半天,后来老板找我谈话了,说我在这个比赛上面花去了太多精力,劝我不要做这个比赛了。
LOG 23. 六月底,挣扎了很久,放弃了。还是很心痛的放弃,不过确实之前花掉了太多的时间摸索下载的问题,就算最后数据都到手了也最多蛇尾一下下。毕竟后面还要找工作呢,书一点都没看。放弃应该是个明智的选择吧。
总结帖:
TREC的历程让我接触到了很多东西,从AWS到Linux系统到Shell脚本到Proxy,虽然每次都失败了可是每次都收获了很多解决实际问题的经验,当然也让我看到了自己的一些弱点。一点点的在成长吧。以前的自己做的东西基本上都是编点程序来解决一些问题,可是TREC给我的经历确是如何去使用其他的工具来解决自己的问题,真的很不一样也是非常好的一种的解决问题的方法。
因为本来准备开学了就将项目模块交付这样子就可以空下一个学期来做TREC了,可是这个模块老板总觉得精度不够,毕竟纯算法的不可能达到99%的精度吧。后面就自己用数据做测试集用了很久,然后拿weka的通用聚类算法来测,结果当然不好(因为通用接口会有数据稀疏的问题),而后再看一些应用的论文重新写代码。
P.S. 有些同学看到这个帖子问我来要数据,抱歉,数据我没有下下来,不过经验还是可以分享的。^_^~~