自然语言处理能够把全网内容组织到什么程度?

自然语言处理能够把全网内容组织到什么程度?

Zhengyun 发表于创业+社区 2007-03-27 23:23:40

 

我的要求是不需要任何推动力,用户不需要做任何输入或搜索,社区内就已经围绕着细粒度的话题展开了。
结果我们做到的自然语言处理后的主题收敛性很强,哈哈。
随手举个例子:
推荐:《 转载:如此令人恶心的三亚今年春节我们在三亚的惊魂遭遇
作者: [倾城] 2007-03-25 16:20:04 (XXX自动计算
)

相关博主论点: 《三亚制订旅游整治方案 欲让99%游客满意》 《市长向游客道歉是网络媒体和草根的胜利》 《三亚是否真的如此令人恶心?》 《又一中国高官道歉事件》 《《如此让人恶心的三亚》一文作者,其实三亚政府应该追究你的责任! 《谁要保护游客的安全??》 《市长向游客道歉显示新媒体和草根的力量》 阅读这个话题讨论


例子二:
推荐:《 娱乐场所实名制管理不止一石三鸟
作者: [诗情碧霄] 2007-03-25 17:23:57 (XXX自动计算
)

相关博主论点: 《时评 实名制不是万金油》 《欢场实名制,是个好东西!?》 《娱乐场所实行实名制,还有谁再去消费?》 《小姐不是小姐,翠花也不叫翠花》 阅读这个话题讨论


这两个例子是社会·民生自动分类的。

我们再来看明星·演艺分类的例子:
推荐:《 外国人才艺大赛出意外 变脸失误选手下跪
作者: 王伟的BLOG 2007-03-25 01:34:14 (XXX自动计算
)

相关博主论点: 《黑人小伙表演变脸失误 泪流满面下跪》 《《全球博客文摘精典周刊-和谐世界》:老外参加央视节目变脸失败 下跪痛哭道歉》 《我,为此感动和鼓掌不断!!!----------而我们的优秀的传统文化、礼仪和精神又上哪里去了?》 《瞬间的感动! 《这样的道歉,真是精品!》 阅读这个话题讨论


这些都是机器自己没有第一推动力情况下自行计算的结果。
社会上有一个热点,我们就自动计算出来了,并灌输到社区里,所以能整合全网内容。
百度贴吧毕竟还是有人输入了搜索关键词,从而形成第一推动力的。
我们不需要。
就像我经常说的一句话:百度、Google是通过用户搜索输入的关键词来判断中文世界的热点。 而我们通过分析全网写作的文章来寻找热点的。 通过这种主题自动发现技术,可以很容易知道最近中文世界人们在讨论什么、在关注什么。

 

下面举几个长一点的例子:

推荐博文:《 港选特首:一场只动眼不动手的选举(转自BBC中文网)

作者TheTwoDogs 2007-03-25 15:58:47 (XXXX自动计算)

  相关博主论点: 《举选》   《为什么内地人对香港特首选举漠不关心》   《新华网:曾荫权当选香港第三任行政长官》   《我期待的晚年生活》   《香港特首选举结束了......   《曾荫权的高票当选显示一国二制强大的生命力》   《更多要闻曾荫权高票连任香港行政长官》   《民主需要秩序。一个合理平稳的选举和权力交接是政治民主的保证》   《分析:--权和梁--杰以后的路(转自BBC中文网)》   《为防泄密 ----举拆闭路电视(转自BBC中文网)》   《年轻没有失败》   《换届》   《曾荫权在香港第三任行政长官选举中以高票胜出》   《香港特别行政区第三任行政长官选举揭晓,现任行政长官曾荫权获得649票,以超过八成的得票率胜出。》   《曾荫权当选香港特区第三届行政长官》   《曾荫权当选新特首》   《曾荫权》        阅读这个话题讨论

 

推荐博文:《 重庆钉子户给政府出难题

作者[ 蔡律http://cailv.bokee.com/] 2007-03-25 09:45:08 (XX自动计算)

  相关博主论点: 《根除野蛮拆迁的契机已经降临》   《随笔》   《搬迁最后期限已过 钉子户仍钉在孤岛上》   《长平:最牛钉子户的举动真牛》   2007-3-24一种拆迁,两种命运:钉子户是谁眼里的钉子var stattitle="一种拆迁,两种命运:钉子户是谁眼里的钉子"; 今天,重庆将成为众媒体、记者、网友和百姓聚焦之地! 07全国两会刚结束,在笔者地脑海里一直有一组强烈的声音在回荡:权力过于集中造成》   《贪婪无耻的最牛钉子户》   《国旗,你不应该成为做秀的工具》   钉子何以成?》   《不接受法庭判决挂起国旗和标语 重庆钉子户给政府出难题》      阅读这个话题讨论

 

 

 
posted @ 2007-03-31 12:33  老兵笔记  阅读(535)  评论(0编辑  收藏  举报