互联网网络走到今天,已经发生了翻天覆地的变化,从最初借助网络进行简单的文字共享,到图片共享,再到知识共享,所有可以放到网络上的东西都被这个庞然大物贪婪的吸收。我们已经从一个资源短缺的平台走进了一个资源过度膨胀的时代。是的,互联网网络作为一个整体欣欣向荣蓬勃发展,但对于组成这个网络的个人,是否有同等意义的进步。当我只需要一片枫叶时,它给了我完整的森林(什么树都有);当我只需要一滴清泉的时候,它把我拍晕在了沙滩上,相当无语。。面对如此浩瀚的信息,我们所痛苦的是,什么是真正需要的。
已经有很多first mover看清了这点,Google,这个传奇的巨人,看到了信息膨胀下人们的痛苦,所以它尝试有效组织信息,帮助用户快速搜索他们需要的,显然,在过去的几年里,它取得了惊人的成功,未来5年,10年它也许也会很成功,但然后呢?
是不是到了应该从本质上思考,未来的信息搜索到底走向何方?
我们所有的搜索都是基于服务器端的分析,它可以做到足够smart,但它毕竟不能收集到用户完整的信息(没有人会真正相信除自己以为的其他人,所以也没有用户会真正相信网络服务商的所谓的承诺,你信qq么,最近貌似又传出某个软件偷偷记录用户信息的事件,其实这种事一直都存在,所以用户也不会给出自己完整的偏好)。回到本初,为什么不能有只属于用户自己的客户端,记录用户完整的信息,先本地分析,再送到纷杂的网络上面去提取,或者把返回的结果进行过滤筛选。
当然,以上讲到的记录用户完整信息,涉及到更基本的OS理论,我们的技术还达不到,但我们想先走出一步,尝试用client记录用户query信息,分析偏好,结合整个网络(各种搜索引擎结果),得到用户最需要的。
说了这么多废话,来点干货吧,我们提出一种可以满足用户个性化需求的学术搜索客户端,它综合几大学术搜索引擎的优点,并为用户提供完全的搜索和关注度偏好定制功能。下面是具体的项目方法及可行性分析(NABC):
Need(需求)
现如今研究人员做research时或者从paper入手,或者在过程中需要参考新的paper,这时他们都会先到 Microsoft Academic Search 或 Google Scholar 等学术搜索引擎中搜索,但是这样找到的内容可能不够全面:有可能在这个地方搜到的paper没有下载链接而另一个地方有,或者这个引擎能找到作者的首页而另一个没有,又或者多个引擎搜索的结果才是paper完整的信息。这时,用户就需要在不同的搜索引擎中同时查找以做到全面完整,实在是令人烦闷而痛苦的事情,这令一个本打算快快乐乐从事研究的科研爱好者情何以堪!
与此同时,每个用户都是一个独特的个体,有自己关注的领域和自己的使用偏好。但是相对应的,而传统的学术搜索引擎并没有足够的针对性和专业区分,而是更加偏向是大众化一些,譬如一个做machine learning的研究员和一个数学家同时在Google中输入Sparse representation,得到的结果一样,但其实他们的需求并没有得到最好的满足。这样的话,也会给学术搜索的用户带来很大的不便。
设想,如果有一种学术搜索能够克服上面所提到的缺陷和不足,为用户提供更加全面的信息以及根据不同用户各自的需求为他们量身定做一套搜索准则,会是一件多么激动人心的事情!当然啦,每次都打开网页去搜索貌似也有一定的不便,所以可以考虑把这种搜索引擎做成客户端的形式,类似金山词霸客户端软件。每次用户只需要在自己PC机上运行,然后在搜索栏输入需要的paper或者author或者会议。于他们而言,何乐而不为?
Approach(做法)
1. 全面综合,一键搞定
针对上面所说的信息不够全面,我们可以从几个不同的学术搜索引擎中“各取所需”,比如说Microsoft Academic Research,Google Scholar等等。搜索结果merge到一起,集众家之所长于一身,返回给用户最全面的资讯,使用户摆脱重复劳动的痛苦。这种数据的结合,可以有很多不同的形式,我们初步的想法是把所能搜索到的所有信息都展示给用户。说的具体一些:对于paper而言,可以提供它的下载链接,发表年份,会议/杂志,摘要信息,被引用次数,参考文献等等;对于某个author而言,可以给出他的个人网页地址,他的论文的共同作者(co-author),师承关系图等等。尽可能给用户提供最全面的信息是我们的最终目的。
2. 个性化定制
另一方面,通过记录用户的搜索偏好,可以为用户筛选出ta最care的信息,按照一个优先等级顺序排列好。拿前面的例子来说,就是让machine learning的研究员搜到Yi Ma的文章,而数学家则能搜到Terrence Tao的文章。用户也可以通过设定选项来定制显示结果应该包含哪些信息项。当然了,除了被动的提供信息之外,这个客户端还可以根据用户的需求以及搜索历史判断他们各自的偏好以提供智能的搜索建议(smart suggestion)。
3. 自动推送和提醒
还有就是,用户可以定制自己喜欢的作者,关心的会议,关注的发展方向等,然后在运行客户端时系统自动将这些作者文章和会议信息下载到本地供用户阅读和整理,或者是某个方面有新的动向及进展更新也能够通过消息的方式来提示用户。这种智能化的搜索客户端能够帮助用户节省很多时间和劳动力,提高他们的工作效率,相信会有很好的应用。
Benefit(好处)
如果我们能很好地实现上面approach所说的功能,给用户以好的搜索体验和附加功能,我们就能把客户从Microsoft Academic Search和Google Scholar中吸引过来。
Competitors(竞争)
目前已经有一个比较成熟的学术搜索客户端软件Publish or Perish,但他们只是单纯从Google Scholar取数据,并且没有提供客户偏好定制的功能,而只是给用户计算各种统计参数。
另外,在Google学术搜索(Google Scholar)结果里,新出现了用邮件订阅与搜索关键字相关的新学术文章的功能,请看这里。这说明Google已经意识到用户的需求,但是它的解决办法也不够有效。
只要我们能把握住机遇,紧跟用户需求,就可以产生第二个吃螃蟹的优势:Second Mover Advantage (SMA) ,吃更大的螃蟹,并且吃得更好!