简述学术家族树__暨Homework One Report
说起家谱,我们再熟悉不过,简而言之就是将一个家族的关系记录并且传承下来的一张图。但是仔细想,家谱的本质是什么?联系,展示联系,展示一类人群的联系。从而将学术界及其关系类比于家族及其关系,即自然而然地产生了学术家谱——学术家族树。
提供和增加联系,这是个简单但却很本质的想法。刚开始看到这个课题可能有人会奇怪甚至质疑这种尝试有没有价值?找出一个人的老师,学生,合作伙伴,这会不会只是一种八卦呢?或者直接通过电话邮件去寻找这种关系不是更简单更精确么?是的,这些都可能正确,但是在信息量如此庞大的网络里,很多日常的解决方法都需要重新考虑,很多的平淡的价值需要重新估量,就像起初谁也没有估测到社交网站现在能如此之火。联系(当然更术语一些叫做流量),是网络商业生存之本,我想这根植于互联网的起源。这可能就是学术族谱树最真正的意义所在——提供联系。
去年USTC—MSRA班上的同学已经为这一想法做出了很好的结果。他们精心设计了很炫的展示界面,给我们提供丰富多彩的信息,包括展现出师生,合作伙伴等关系,展示相应的学术机构信息,论文情况等(见下图,摘自ustc_msra_ase的博客园)。
这个界面很清楚地展现了联系,但是美中不足的是给人的感觉稍有混乱,尤其是当叶子结点比较多的时候。我们的想法是能不能将这个图分割开来或者更细致地展示呢?因为有时候我们搜索的意图并不是要找出与某一个人有关系的所有人,比如我们只想知道洪小文院长有哪些学生,或者我们只想知道最近两年邹欣老师主要跟哪几个人合作较多,这时候我们可以选择只展示族谱树的一个子树,如学生子树,或者通过增加用户输入的限制寻找更精确的结果,而不仅仅是单一地输入一个名字,比如加上时间,加上关系等。当然,还有一个更大胆的想法就是可以用三维立体图来展示搜索结果,用户可以看到不同的侧面(比如代表不同的关系),并且可以自由旋转浏览。这样的好处是将简单的分类变得具有层次感,而且效果会更清晰,更炫,但是代价是较难设计和实现。
对于学术关系如何生成和分析,在采访了去年做学术搜索的师兄以及我们分析之后,都觉得这是个较为困难的问题。去年ustc_msra_ase小组采取的是有一些从有现成的这种关系的网站上面爬,有些自己手动的输入。当然这两种方式都非长久之计,前者有盗窃嫌疑,后者不适合大规模搜索。我们认为最理想的方式是能从学术论文或者个人主页上搜索并且分析出结果,这基本上与搜索引擎做的是同样的事情,只是结果不是分析文件的相关性,而是分析人物的关系。这其中的好处是,学术搜索的范围要远小于搜索引擎,但是坏处是人物关系分析要远远难于文件相关性分析。在文件的相关性中我们可以利用对term建文件的倒排索引然后从term找出与query相关的文件。但是对于人物关系,有些文章或主页上只有名字,没有明确的关系;有些关系或者身份是双重的,比如又是合作伙伴,又是学生等。这些问题的处理都需要我们深入去思考。
采访时,师兄师姐在其他一些方面也给了中肯的建议,使得我们收益非浅。比如有师兄强调设计软件一定要多从用户的角度考虑,要方便好用,同时要进行压力测试,要能对付大量数据。在做搜索时还要考虑隐私问题等。
经过这些采访和学习后,我们深深地觉得我们任重而道远,但是光荣而神圣,这里先预祝我们取得好成果。
有关进一步的了解,欢迎访问: