看到了我们组写的文章(http://www.cnblogs.com/rosting/archive/2011/08/09/2132756.html),我不禁也想谈一点个人想法吧。

       最近许多认识的同学都开始写CV和选学校了,虽然今年我不打算选校,但我还是比较关注这些事情的。就选校而言,我们需要考虑什么?可能有些人会很看重排名,有些人很看重专业,不过在我看来,一个好的导师对我们而言非常的重要。现在这个年代,想出国很容易,但想跟着好的老板可就没那么容易了,在很多时候,我们给国外的那些老板们发邮件,都是没有回应的,这个时候,我们不妨可以考虑联系一下这位老板的学生之类的,说不定里面就有你的熟人呢?于是,一个新的需求产生了。好吧,可能有的人觉得,这个需求很鸡肋,除了申请以外就没什么用了。其实不然,如果纯粹出于一个人的好奇心,你有没有想过自己的学术传承起源于哪里呢?你有没有想过爱因斯坦就有可能是你的三代祖师呢?你有没有想过香农当年可能是和你老师的老师一起发明的信息论?换个方面,在我们对一个人的学术成就做评价时,除了发表的论文和被引用数,这个人的老师和学生也对他的学术高度有很大的影响。废话了这么多,问题来了,我们要到哪里去寻找这种关系呢?大多数人习惯了使用Google,百度等搜索工具,但随着使用我们会发现,这样的工具在我们想要搜索具体事务时往往不能达到理想的效果,于是乎,一个面向学术界的强大的平台浮出了水面,这就是微软学术搜索(http://academic.research.microsoft.com)。我并不知道Google Scholar的数据库有多大,但微软学术搜索的数据量绝对是不小的,大家上首页去看数字就知道了。而在这个平台之上,我相信不久的将来,大家就会有幸见到真正的充满传奇色彩的由我们小组继承开发的——学术家族树。

       前面两篇文章(http://www.cnblogs.com/rosting/archive/2011/08/09/2132756.htmlhttp://www.cnblogs.com/yuewu/archive/2011/08/06/2129683.html)更多的讲的是高层次的概述,讲完了大家也不知道这家族树该怎么去做,这对技术的发展没有什么帮助,也没起到科普的作用。所以讲了那么多口水话,还是讲讲技术吧。分析关系,这是一个非常复杂的问题,有兴趣的人可以玩玩这么一个网站(人立方关系搜索http://renlifang.msra.cn/),这是个很有趣的网站,我随便玩了玩,才发现因为郎咸平当年拿电影《孔子》和《阿凡达》做了个对比,于是郎教授就和孔子产生了人际关系。所以,我们可以发现,人与人之间的关系是很难获取的,那么,对于我组即将从事的学术家族树而言,我们要怎样去获取这样一种关系呢?

       方法是很多的,但实现起来是有很多问题的。比如我们可以通过Google来搜素,但这样的结果太过混乱,不好整合。比如我们可以通过个人主页来找到这个人的Students,但我们这样获取的信息很不全面,并不能知道他们是在哪些时候是师生关系,而且人名信息不一定与我们已有的数据库里面人名一致,很容易造成数据库错乱。那么,到底该怎么做呢?

       微软学术搜索为用户提供了海量的论文信息,并且在数据库里记载了超过一千四百万个作者信息,我们何不就通过数据库里已有的这些论文和作者关系来分析呢?是的,有这么大的数据量作为支撑,还有什么关系是不能分析的吗?可是,当这么一大堆数据摆在我们面前时,我们又该如何下手?
       每一篇论文都会有几个作者,而在这些co-author中,或许就隐藏了我们所需要的师生关系,而我们现在要做的,就是判断这些co-author中是否包含师生,谁与谁是师生呢?太细枝末节的公式我也就不推导了,在这里我也就简单介绍一下自己的对数据进行预处理的方法。

       在分析老师与学生关系时,我会做以下两个假设:
       1、 x既可能是学生也可能是老师。若t1时刻x为老师,则在t1时刻以后x不可能为任何人的学生。若t2时刻x为学生,则在t2时刻时x不可能为任何人的老师。如果t1-t2时刻x为y的老师,那么t1-t2应该为一段连续的时间。
       2、 老师第一篇论文发表的时间肯定比学生第一篇论文发表的要早。
       有了这两个假设,我就可以来做一些分析工作了。

       首先,我用一个K表达式来表示两人论文发表的相关性,里面的参数包括时间,发表论文数目等等。然后用一个I表达式来表达两个人之间的不平衡系数。那么我们可推导出在以下情况中a肯定不是b的老师(此处仅为简单描述):

       1、 在合作期间,两人的不平衡系数I小于零。
       2、 在合作期间,两人的K表达式值无增长。
       3、 两人的合作只持续了一年。
       4、 A的第一篇论文比AB第一篇合作论文发表时间早不超过一年。

       通过以上筛选过后,于是我们可以通过一个L表达式来计算两个人是师生关系的可能性,并且估计两人之间保持老师学生关系的时间段。比如第一篇合作论文发表的前一年就是师生关系开始的时间,而结束时候就是K表达式值开始减小的时间,或者K的值前后变换最大的一年,取两值较小的值。而L表达式可以由合作期间的K表达式和L表达式得到,在此也就不详细说明了,不然就成论文了。
       以上也就是整个预处理过程。我们可以看到,只要有充分的数据,我们是一定可以分析的,关键是我们从何入手,又该有哪些条件来支撑我们的数学模型?真正的关系分析模型非常的复杂,还需要我们去努力挖掘,不是一朝一夕就能解决的。
       好了,陪大家闲聊了,也给大家科普了,是不是应该给点支持和意见呢?期待家族树的正式发布~~


Foster

2011年8月11日

posted on 2011-08-11 17:35  Preman  阅读(241)  评论(0编辑  收藏  举报