M2 Planning Day1

其实总的来说不如称之为PrePlanning。经过上周我们和Cambridge guys的亲切交流之后，愈发觉得我们要做的事情还太多太多，虽然M1我们搞出来看似还蛮fancy的东西，比如：

但实际上对于更advanced的部分，即所谓new topic的获取我们并没有太多的想法。Mr. Richard Harper (Principle Researcher of MSRC)的想法大概是对于从Bing获取来的信息，我们应该能自动地将其分类，并为每一类总结出新的topic words，然后以这样的words作为新的关键词到Bing里面去搜，获取到的结果再聚类（或者我们可以定义树的深度，即一定程度后就不再自动聚类了），如此反复，最终从一个keyword出发，得到的是某一个field的类似knowledge graph之类的东西。

嘛，怎么说呢，如果真能做成那样，首先要解决的问题就是如何为网页分类并抽取关键词的问题，这看起来是一个text-mining的问题，并且non-trivial，我们让NLC组的Shuangzhi去调研一下这方面的情况，但是目测应该不是很容易的东西，因为我记得有一个小组是专门做这样的东西（收藏夹智能分类之类），可是从M1的结果上来看并不是很make sense，所以我们不一定会completely follow Richard的想法。

但是树总是要分叉的，分叉意味着有一定的层次，今天的讨论主要围绕这一点，最后产生了URL分类流，domain分类流，任意分叉流，等等。但是有一点我们注意到目前我们用到的只有Bing API的Search功能，对于其他可能获取的Data我们并没有关注，在Xichao进行过调研后可能会有一些有意思的结果。

另外，对于之前考虑的多棵树功能，我们今天对其进行了质疑。因为如果我们能在一棵树的分叉上做得很好，换句话讲一棵树已经能长得很茂盛，也就没有必要加入多棵树功能了。

看起来今天只是提出了很多问题，还有待于更多的讨论。

posted @ 2012-10-29 22:18 smart-code 阅读(241) 评论(31) 收藏举报

刷新页面返回顶部

M2 Planning Day1

公告