随笔分类 -  语义应用

摘要:先介绍一下SimHash处理短文本合并重复的效果,再介绍一下2009年2月份我们做Twitter锐推榜时是如何做的。 阅读全文
posted @ 2012-06-12 18:05 老兵笔记 阅读(16857) 评论(0) 推荐(0) 编辑
摘要:前面说到Topic Engine/个性化阅读/Meme Tracker这几个方向所需要的研发团队大致是12个人起。下面着重说一下在现如今如何做个性化阅读。 阅读全文
posted @ 2011-04-17 23:47 老兵笔记 阅读(7843) 评论(2) 推荐(5) 编辑
摘要:集中回答一下网友对互联网信息监测的提问。 阅读全文
posted @ 2011-03-07 00:31 老兵笔记 阅读(2001) 评论(0) 推荐(0) 编辑
摘要:Cutt.com在组织资讯时,我把它划分到Topic Engine一类,暂且不谈它的阅读模式和群体智慧。(Updated:我拼写错误,应该是“王靖雯”,这样就可以找到王菲) 阅读全文
posted @ 2010-07-27 00:54 老兵笔记 阅读(6862) 评论(4) 推荐(2) 编辑
摘要:原文地址:http://aimotion.blogspot.com/2010/07/working-on-sentiment-analysis-on.html 虽然是讲葡萄牙语下的情感分析,但作为一个入门指导也有可看之处。 阅读全文
posted @ 2010-07-22 00:55 老兵笔记 阅读(2801) 评论(0) 推荐(1) 编辑
摘要:可以认为这是一个理想的自动问答机器,利用协同过滤原理和语义技术,同时又有人工编辑审核问题和答案保证机器学习的质量。 阅读全文
posted @ 2010-03-08 16:20 老兵笔记 阅读(3927) 评论(0) 推荐(0) 编辑
摘要:实时分析大致有几种。 阅读全文
posted @ 2010-03-06 21:53 老兵笔记 阅读(8751) 评论(0) 推荐(0) 编辑
摘要:而从人类的感觉上,至少要能有几个标签,比如名词、动词、形容词等,才能证明一个tweet可能包含有一定信息量,值得被传播。所以强制要求有N个标签被检测到的规则,恰好能逼近这种人类的认知。 阅读全文
posted @ 2010-01-23 23:14 老兵笔记 阅读(4637) 评论(0) 推荐(1) 编辑
摘要:大致的框架就是这样。玩聚HOT还在内测中(所以暂不提供RSS和微博帐号),不排除打散逻辑重新组合,但基本哲学应该就是这些了。 阅读全文
posted @ 2010-01-18 03:36 老兵笔记 阅读(3498) 评论(0) 推荐(0) 编辑
摘要:现在的重复内容检测逻辑是: 首先对文章内容较长的,是基于Shingle的重复检测办法; 其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。 这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。 阅读全文
posted @ 2010-01-07 01:00 老兵笔记 阅读(2710) 评论(0) 推荐(1) 编辑
摘要:在语义的世界里,可以近似地说:万事万物都是特征提取。 你只要找到特征,事情就好办。 如果你找不到明确的特征,那么什么样的机器智能也无法准确地帮助你。 多数时候,唯一的麻烦在于,你所认为的特征,实际上不是特征。。。 阅读全文
posted @ 2009-10-27 17:23 老兵笔记 阅读(1796) 评论(1) 推荐(0) 编辑
摘要:下面会罗列 Finding Better Experts/Friends 的五大手法,请注意,前面提到的“写手”只是Experts的一小部分,每个垂直领域都会有很多专家,或声名显赫或不为人知或因复杂系统的默不作声而被隐藏。 阅读全文
posted @ 2009-09-03 02:16 老兵笔记 阅读(8893) 评论(4) 推荐(0) 编辑
摘要:社会化媒体的可携带可传播数据是海量的,从中打捞珍珠并串成线,还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示,无论你的界面多么漂亮,都没有太大价值,你必须增加一些附加价值。 阅读全文
posted @ 2009-08-31 00:26 老兵笔记 阅读(7937) 评论(0) 推荐(0) 编辑
摘要:以上都是尽可能利用公开的、权威(或可靠)数据,来可视化或结构化一个人的线上数据。 阅读全文
posted @ 2009-08-30 19:12 老兵笔记 阅读(5837) 评论(0) 推荐(0) 编辑
摘要:好了,就是这些了。这就是2009年7月和8月国外情感分析方向的一些进展。 阅读全文
posted @ 2009-08-19 20:21 老兵笔记 阅读(5413) 评论(2) 推荐(0) 编辑
摘要:昨天,Techmeme宣布雇佣编辑了,是个女的。老外主要的担心在于客观不客观偏颇不偏颇上,这一点与我们国内的考虑大相径庭。但Gabe的反驳也很有力:Techmeme从来都不是客观的,因为人生就不公平!Techmeme将总会带有偏颇,因为是人建造了它!(听上去是不是像keso?) 阅读全文
posted @ 2008-12-04 14:00 老兵笔记 阅读(1348) 评论(0) 推荐(0) 编辑
摘要:和有道的推广人员聊,我反映的也是大家做研发最经常遇到的问题。由于新闻聚合的根本涉及自然语言处理的文本相似性计算,所以各种新闻聚合产品也都是一个毛病(跟我们最开始的玩聚热点一样)。 阅读全文
posted @ 2008-09-21 17:18 老兵笔记 阅读(4278) 评论(2) 推荐(0) 编辑
摘要:答某位网友的询问。 语义,是一条艰难的旅程。 语义,只能做到一些特定的事情而已,算法的正确率是有限的,到了某种精度后,再提高一点点就需要花费大量的时间和耐性。 但,它是一个没有天花板的空间。 这里水很深,全球高手如云,但一旦进入,就上不封顶,有极大的发展空间。 它绝对不是一个人能做成的事情,需要很多人很多钱很多机器。 阅读全文
posted @ 2008-07-15 22:53 老兵笔记 阅读(1363) 评论(0) 推荐(0) 编辑