Yue Wu

博客园 首页 联系 订阅 管理

       这两天看了一下去年MSRA的师兄师姐们关于学术家族树的工作,总体感觉还是不错的,尤其是在UI方面,展现出来的界面十分友好。从他们庞大的博客阵容里解脱出来,确实受益良多。

       首先,他们对学术家族树做了详细客观的需求分析。

For 资深专家----桃李满天下:
       搜搜看我的学生们都在做什么,取得了哪些成就,关注一下他们的研究现状
 
For 著名学者---学术顶峰期
       如何博取百家之长,丰富自己的研究,更上一层楼
 
For 学术新星----暂露头脚,没多少课题
       搜搜看哪些师兄,老师在做这个方面,能否通过他们给我提供一些支持和帮助
 
For  学术新人---将要读博,选择哪个方向呢
        想到一个有影响力的研究机构去继续修行,该领域最近谁最活跃,到哪去搜呢?
 
For  manager---找个合适的人来担当

        搜搜应聘者的学术族谱关系,谁的师承背景好些,这个学术家族是不是正在不断壮大? 

(摘自师兄师姐博客)

 

这样一来,学术家族树可以作为微软学术搜索的一部分,为用户提供全方位的服务。

       其次,在设计之初,他们能将项目的规划还是比较完善的,整个项目包括了数据搜集算法,数据库的建立于维护,用户UI设计。其中提到很重要的一点是提供多样化的信息:

多样化的信息。有如下几点:


•提供文章作者的homepage,所在学院或系的homepage。

•提供人性化和方便的下载按钮。


•提供除文章以外的相关信息,比如video,ppt等。


单单看文章有时不能很好的理解,这时需要ppt和video的帮忙来理解。之前的学术搜索提供的下载按钮有时使用不是很方便,需要多次点击。而且没有提供额外的信息共查看,比如ppt,video等,这些是很好的辅助信息。所以能使用户很好的工作。

 

       再者,最让我诧异的就是展现出来的用户界面,十分的简洁但又不古板。

 

       但是,从学术家族树整个项目的角度来看,这些工作是否真的很完美了呢?今年我有幸也要参加到这项工作中,不免有一些想法。

 

       前人工作中在数据采集这一块几乎没有提及,只是在项目规划时提到了用爬虫算法。我在想,爬虫算法本身不难,但是从哪里爬?爬来的原始数据如何处理?如何保证数据的正确性与更新?从某种层面上来说,学术家族树的数据采集部分要完成搜索引擎同样的任务。幸运的是,我们面对的数据量以及数据范畴大大得减小了。更加庆幸的是,学术搜索数据库里有大量的信息可以挖掘。学术家族树的数据来源可以是学术论文或者是个人主页,学术搜索已经把论文准备好了,我们要做的就是分析作者之间的关系,至于个人主页,我以为目前研究机构在学术论文里一般都会提到,我们可以沿着这条线索去挖掘这个机构成员的个人主页。

       现在的关键问题是:如何分析这些原始数据?个人主页里应该会有直接的师生、同事关系,论文里的家族关系或许可以通过个人研究的起始时间,与他人合作的起始时间以及合作时间的长短等来判断。个人主页还可以作为分析paper校正。当然,整个数据的分析也许是这个项目最难的环节,绝不是三言两语能够说清楚,这里先祈祷我们团队能够很好的解决这个问题。

 

       数据库的建立于维护我个人感觉不是太难。数据库技术目前已经比较成熟,SQL对于我们也不陌生,我们的工作更多可能在集中在如何设计合理的数据结构去管理这些数据,以保证数据的修改,补充能够快速准确的完成?如何提供一个良好的接口连接数据采集分析器和UI?这里面有很多的工作需要我们的耐心和创意。

 

       UI的设计虽然前人已经做的比较好了,但我觉得还是有点单一。用户要看的可能不仅仅只是学术家族镨,他们需要人与人之间的关系,同时也可能要深入地关注节点的详细信息。同时,家族树中可能会出现特别“茂密”的树,这样对于用户可能会比较悲剧。另外,树的缺点在于不能很好的利用桌面空间,越靠近根节点空白的地方越多。我个人觉得可以用将家族树的根节点移动到这个界面的中心,将根节点以环绕的方式团结在根节点的周围。原来家族树的中间结点又可以成为一个新的“子中心节点”,他的孩子节点以继续团结在他的周围,用户可以通过缩放的方式了解不同层次上的学术家族关系。

       上面说到的是师生关系,对于合作关系,我更倾向于用图的结构。这样在图中的每个节点都是树的中心,当用户将界面缩小时可以看到合作关系(图),放大时就可以关注每棵树。

       关于边的设计。节点与节点之间的连线有什么需要设计呢?合作关系和师生关系可以通过不同颜色来标注确实不错,但为什么我们不利用这条连线的宽度来表示合作的次数或者频率呢?甚至,当用户焦点放到边上的时候,还可以弹出代表性的合作项目。

对于每个节点,我觉得可以利用师兄师姐的想法,提供多样化的信息。尤其是其中提到的video,ppt等是一个十分好的想法,有些时候我们并不需要深入的了解paper的细节,ppt 和video更直观更具体。

       最后我想谈谈信息的修改,前人的方法和目前大多数网站用到的用户资料修改很相似,但考虑到学术家族树的特殊性,我感觉可以先通过用户填写基本信息生成节点,至于家族关系如果能够能过简单的拖拽和连线可能更有吸引力。

 

       每一项工作的开始总会设计的气势磅礴,我们团队深感任重道远,借此即将开题之际,预祝我们能够历经山重水复之后(太顺利了就没意思了)柳暗花明,有朝一日在微软的学术搜索里看到我们的产品~

posted on 2011-08-06 21:56  Yue Wu  阅读(698)  评论(1编辑  收藏  举报