我也谈谈学术家族树--Foster

看到了我们组写的文章（http://www.cnblogs.com/rosting/archive/2011/08/09/2132756.html），我不禁也想谈一点个人想法吧。

最近许多认识的同学都开始写CV和选学校了，虽然今年我不打算选校，但我还是比较关注这些事情的。就选校而言，我们需要考虑什么？可能有些人会很看重排名，有些人很看重专业，不过在我看来，一个好的导师对我们而言非常的重要。现在这个年代，想出国很容易，但想跟着好的老板可就没那么容易了，在很多时候，我们给国外的那些老板们发邮件，都是没有回应的，这个时候，我们不妨可以考虑联系一下这位老板的学生之类的，说不定里面就有你的熟人呢？于是，一个新的需求产生了。好吧，可能有的人觉得，这个需求很鸡肋，除了申请以外就没什么用了。其实不然，如果纯粹出于一个人的好奇心，你有没有想过自己的学术传承起源于哪里呢？你有没有想过爱因斯坦就有可能是你的三代祖师呢？你有没有想过香农当年可能是和你老师的老师一起发明的信息论？换个方面，在我们对一个人的学术成就做评价时，除了发表的论文和被引用数，这个人的老师和学生也对他的学术高度有很大的影响。废话了这么多，问题来了，我们要到哪里去寻找这种关系呢？大多数人习惯了使用Google，百度等搜索工具，但随着使用我们会发现，这样的工具在我们想要搜索具体事务时往往不能达到理想的效果，于是乎，一个面向学术界的强大的平台浮出了水面，这就是微软学术搜索（http://academic.research.microsoft.com）。我并不知道Google Scholar的数据库有多大，但微软学术搜索的数据量绝对是不小的，大家上首页去看数字就知道了。而在这个平台之上，我相信不久的将来，大家就会有幸见到真正的充满传奇色彩的由我们小组继承开发的——学术家族树。

前面两篇文章（http://www.cnblogs.com/rosting/archive/2011/08/09/2132756.html，http://www.cnblogs.com/yuewu/archive/2011/08/06/2129683.html）更多的讲的是高层次的概述，讲完了大家也不知道这家族树该怎么去做，这对技术的发展没有什么帮助，也没起到科普的作用。所以讲了那么多口水话，还是讲讲技术吧。分析关系，这是一个非常复杂的问题，有兴趣的人可以玩玩这么一个网站（人立方关系搜索http://renlifang.msra.cn/），这是个很有趣的网站，我随便玩了玩，才发现因为郎咸平当年拿电影《孔子》和《阿凡达》做了个对比，于是郎教授就和孔子产生了人际关系。所以，我们可以发现，人与人之间的关系是很难获取的，那么，对于我组即将从事的学术家族树而言，我们要怎样去获取这样一种关系呢？

方法是很多的，但实现起来是有很多问题的。比如我们可以通过Google来搜素，但这样的结果太过混乱，不好整合。比如我们可以通过个人主页来找到这个人的Students，但我们这样获取的信息很不全面，并不能知道他们是在哪些时候是师生关系，而且人名信息不一定与我们已有的数据库里面人名一致，很容易造成数据库错乱。那么，到底该怎么做呢？

微软学术搜索为用户提供了海量的论文信息，并且在数据库里记载了超过一千四百万个作者信息，我们何不就通过数据库里已有的这些论文和作者关系来分析呢？是的，有这么大的数据量作为支撑，还有什么关系是不能分析的吗？可是，当这么一大堆数据摆在我们面前时，我们又该如何下手？
每一篇论文都会有几个作者，而在这些co-author中，或许就隐藏了我们所需要的师生关系，而我们现在要做的，就是判断这些co-author中是否包含师生，谁与谁是师生呢？太细枝末节的公式我也就不推导了，在这里我也就简单介绍一下自己的对数据进行预处理的方法。

在分析老师与学生关系时，我会做以下两个假设：
       1、 x既可能是学生也可能是老师。若t1时刻x为老师，则在t1时刻以后x不可能为任何人的学生。若t2时刻x为学生，则在t2时刻时x不可能为任何人的老师。如果t1-t2时刻x为y的老师，那么t1-t2应该为一段连续的时间。
       2、老师第一篇论文发表的时间肯定比学生第一篇论文发表的要早。
       有了这两个假设，我就可以来做一些分析工作了。

首先，我用一个K表达式来表示两人论文发表的相关性，里面的参数包括时间，发表论文数目等等。然后用一个I表达式来表达两个人之间的不平衡系数。那么我们可推导出在以下情况中a肯定不是b的老师（此处仅为简单描述）：

       1、在合作期间，两人的不平衡系数I小于零。
       2、在合作期间，两人的K表达式值无增长。
       3、两人的合作只持续了一年。
       4、 A的第一篇论文比AB第一篇合作论文发表时间早不超过一年。

通过以上筛选过后，于是我们可以通过一个L表达式来计算两个人是师生关系的可能性，并且估计两人之间保持老师学生关系的时间段。比如第一篇合作论文发表的前一年就是师生关系开始的时间，而结束时候就是K表达式值开始减小的时间，或者K的值前后变换最大的一年，取两值较小的值。而L表达式可以由合作期间的K表达式和L表达式得到，在此也就不详细说明了，不然就成论文了。
以上也就是整个预处理过程。我们可以看到，只要有充分的数据，我们是一定可以分析的，关键是我们从何入手，又该有哪些条件来支撑我们的数学模型？真正的关系分析模型非常的复杂，还需要我们去努力挖掘，不是一朝一夕就能解决的。
好了，陪大家闲聊了，也给大家科普了，是不是应该给点支持和意见呢？期待家族树的正式发布~~

Foster（http://www.cnblogs.com/foster/）

2011年8月11日

posted @ 2011-08-11 17:33 Rosting 阅读(2023) 评论(4) 编辑收藏举报

Rosting

Focus on software engineering

我也谈谈学术家族树--Foster

公告