随笔分类 - 语义应用
摘要:先介绍一下SimHash处理短文本合并重复的效果,再介绍一下2009年2月份我们做Twitter锐推榜时是如何做的。
阅读全文
摘要:前面说到Topic Engine/个性化阅读/Meme Tracker这几个方向所需要的研发团队大致是12个人起。下面着重说一下在现如今如何做个性化阅读。
阅读全文
摘要:Cutt.com在组织资讯时,我把它划分到Topic Engine一类,暂且不谈它的阅读模式和群体智慧。(Updated:我拼写错误,应该是“王靖雯”,这样就可以找到王菲)
阅读全文
摘要:原文地址:http://aimotion.blogspot.com/2010/07/working-on-sentiment-analysis-on.html
虽然是讲葡萄牙语下的情感分析,但作为一个入门指导也有可看之处。
阅读全文
摘要:可以认为这是一个理想的自动问答机器,利用协同过滤原理和语义技术,同时又有人工编辑审核问题和答案保证机器学习的质量。
阅读全文
摘要:而从人类的感觉上,至少要能有几个标签,比如名词、动词、形容词等,才能证明一个tweet可能包含有一定信息量,值得被传播。所以强制要求有N个标签被检测到的规则,恰好能逼近这种人类的认知。
阅读全文
摘要:大致的框架就是这样。玩聚HOT还在内测中(所以暂不提供RSS和微博帐号),不排除打散逻辑重新组合,但基本哲学应该就是这些了。
阅读全文
摘要:现在的重复内容检测逻辑是:
首先对文章内容较长的,是基于Shingle的重复检测办法;
其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。
这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。
阅读全文
摘要:在语义的世界里,可以近似地说:万事万物都是特征提取。
你只要找到特征,事情就好办。
如果你找不到明确的特征,那么什么样的机器智能也无法准确地帮助你。
多数时候,唯一的麻烦在于,你所认为的特征,实际上不是特征。。。
阅读全文
摘要:下面会罗列 Finding Better Experts/Friends 的五大手法,请注意,前面提到的“写手”只是Experts的一小部分,每个垂直领域都会有很多专家,或声名显赫或不为人知或因复杂系统的默不作声而被隐藏。
阅读全文
摘要:社会化媒体的可携带可传播数据是海量的,从中打捞珍珠并串成线,还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示,无论你的界面多么漂亮,都没有太大价值,你必须增加一些附加价值。
阅读全文
摘要:以上都是尽可能利用公开的、权威(或可靠)数据,来可视化或结构化一个人的线上数据。
阅读全文
摘要:好了,就是这些了。这就是2009年7月和8月国外情感分析方向的一些进展。
阅读全文
摘要:昨天,Techmeme宣布雇佣编辑了,是个女的。老外主要的担心在于客观不客观偏颇不偏颇上,这一点与我们国内的考虑大相径庭。但Gabe的反驳也很有力:Techmeme从来都不是客观的,因为人生就不公平!Techmeme将总会带有偏颇,因为是人建造了它!(听上去是不是像keso?)
阅读全文
摘要:和有道的推广人员聊,我反映的也是大家做研发最经常遇到的问题。由于新闻聚合的根本涉及自然语言处理的文本相似性计算,所以各种新闻聚合产品也都是一个毛病(跟我们最开始的玩聚热点一样)。
阅读全文
摘要:答某位网友的询问。
语义,是一条艰难的旅程。
语义,只能做到一些特定的事情而已,算法的正确率是有限的,到了某种精度后,再提高一点点就需要花费大量的时间和耐性。
但,它是一个没有天花板的空间。
这里水很深,全球高手如云,但一旦进入,就上不封顶,有极大的发展空间。
它绝对不是一个人能做成的事情,需要很多人很多钱很多机器。
阅读全文