自然语言处理能够把全网内容组织到什么程度?
自然语言处理能够把全网内容组织到什么程度? |
Zhengyun 发表于创业+社区 2007-03-27 23:23:40 |
我的要求是不需要任何推动力,用户不需要做任何输入或搜索,社区内就已经围绕着细粒度的话题展开了。
结果我们做到的自然语言处理后的主题收敛性很强,哈哈。
随手举个例子:
推荐:《 转载:如此令人恶心的三亚今年春节我们在三亚的惊魂遭遇 》
作者: [倾城] 2007-03-25 16:20:04 (XXX自动计算)
相关博主论点: 《三亚制订旅游整治方案 欲让99%游客满意》 《市长向游客道歉是网络媒体和草根的胜利》 《三亚是否真的如此令人恶心?》 《又一中国高官道歉事件》 《《如此让人恶心的三亚》一文作者,其实三亚政府应该追究你的责任!》 《谁要保护游客的安全??》 《市长向游客道歉显示新媒体和草根的力量》 阅读这个话题讨论…
例子二:
推荐:《 娱乐场所实名制管理不止一石三鸟 》
作者: [诗情碧霄] 2007-03-25 17:23:57 (XXX自动计算)
相关博主论点: 《时评 实名制不是万金油》 《欢场实名制,是个好东西!?》 《娱乐场所实行实名制,还有谁再去消费?》 《小姐不是小姐,翠花也不叫翠花》 阅读这个话题讨论…
这两个例子是社会·民生自动分类的。
我们再来看明星·演艺分类的例子:
推荐:《 外国人才艺大赛出意外 变脸失误选手下跪 》
作者: 王伟的BLOG 2007-03-25 01:34:14 (XXX自动计算)
相关博主论点: 《黑人小伙表演变脸失误 泪流满面下跪》 《《全球博客文摘精典周刊-和谐世界》:老外参加央视节目变脸失败 下跪痛哭道歉》 《我,为此感动和鼓掌不断!!!----------而我们的优秀的传统文化、礼仪和精神又上哪里去了?》 《瞬间的感动!》 《这样的道歉,真是精品!》 阅读这个话题讨论…
这些都是机器自己没有第一推动力情况下自行计算的结果。
社会上有一个热点,我们就自动计算出来了,并灌输到社区里,所以能整合全网内容。
百度贴吧毕竟还是有人输入了搜索关键词,从而形成第一推动力的。
我们不需要。
就像我经常说的一句话:“百度、Google是通过用户搜索输入的关键词来判断中文世界的热点。 而我们通过分析全网写作的文章来寻找热点的。 通过这种主题自动发现技术,可以很容易知道最近中文世界人们在讨论什么、在关注什么。
”
下面举几个长一点的例子:
推荐博文:《 港选特首:一场只动眼不动手的选举(转自BBC中文网) 》
作者: TheTwoDogs 2007-03-25 15:58:47 (XXXX自动计算)
相关博主论点: 《举选》 《为什么内地人对香港特首选举漠不关心》 《新华网:曾荫权当选香港第三任行政长官》 《我期待的晚年生活》 《香港特首选举结束了......》 《曾荫权的高票当选显示一国二制强大的生命力》 《更多要闻曾荫权高票连任香港行政长官》 《民主需要秩序。一个合理平稳的选举和权力交接是政治民主的保证》 《分析:曾-荫-权和梁-家-杰以后的路(转自BBC中文网)》 《为防泄密 港-特-首-选-举拆闭路电视(转自BBC中文网)》 《年轻没有失败》 《换届》 《曾荫权在香港第三任行政长官选举中以高票胜出》 《香港特别行政区第三任行政长官选举揭晓,现任行政长官曾荫权获得649票,以超过八成的得票率胜出。》 《曾荫权当选香港特区第三届行政长官》 《曾荫权当选新特首》 《曾荫权》 阅读这个话题讨论…
作者: [ 蔡律http://cailv.bokee.com/] 2007-03-25 09:45:08 (XX自动计算)
相关博主论点: 《根除野蛮拆迁的契机已经降临》 《随笔》 《搬迁最后期限已过 钉子户仍钉在孤岛上》 《长平:最牛钉子户的举动真牛》 《2007-3-24一种拆迁,两种命运:“钉子户”是谁眼里的“钉子”?var stattitle="一种拆迁,两种命运:“钉子户”是谁眼里的“钉子”?"; 今天,重庆将成为众媒体、记者、网友和百姓聚焦之地! 07全国两会刚结束,在笔者地脑海里一直有一组强烈的声音在回荡:权力过于集中造成》 《贪婪无耻的“最牛”钉子户》 《国旗,你不应该成为做秀的工具》 《“钉子”何以成“钉”?》 《不接受法庭判决挂起国旗和标语 重庆钉子户给政府出难题》 阅读这个话题讨论…