语义应用 - 随笔分类 - 老兵笔记

摘要：现在的重复内容检测逻辑是：首先对文章内容较长的，是基于Shingle的重复检测办法；其次对文章很短的，比如cnBeta摘要输出的RSS内容，比如Solidot，比如南方报业旗下的RSS内容，先提取标签，然后计算文章的标签相似度。这两种办法算起来很快，但未必总能检测出来重复，继续积累吧。阅读全文

posted @ 2010-01-07 01:00 老兵笔记阅读(2713) 评论(0) 推荐(1) 编辑

语义与特征

摘要：在语义的世界里，可以近似地说：万事万物都是特征提取。你只要找到特征，事情就好办。如果你找不到明确的特征，那么什么样的机器智能也无法准确地帮助你。多数时候，唯一的麻烦在于，你所认为的特征，实际上不是特征。。。阅读全文

posted @ 2009-10-27 17:23 老兵笔记阅读(1798) 评论(1) 推荐(0) 编辑

从Social Media海量数据中寻找专家的五大手法

摘要：下面会罗列 Finding Better Experts/Friends 的五大手法，请注意，前面提到的“写手”只是Experts的一小部分，每个垂直领域都会有很多专家，或声名显赫或不为人知或因复杂系统的默不作声而被隐藏。阅读全文

posted @ 2009-09-03 02:16 老兵笔记阅读(8898) 评论(4) 推荐(0) 编辑

Social Media附加价值开发的四大模式

摘要：社会化媒体的可携带可传播数据是海量的，从中打捞珍珠并串成线，还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示，无论你的界面多么漂亮，都没有太大价值，你必须增加一些附加价值。阅读全文

posted @ 2009-08-31 00:26 老兵笔记阅读(7941) 评论(0) 推荐(0) 编辑

分析人的网络轨迹和碎片之四大模式

摘要：以上都是尽可能利用公开的、权威（或可靠）数据，来可视化或结构化一个人的线上数据。阅读全文

posted @ 2009-08-30 19:12 老兵笔记阅读(5840) 评论(0) 推荐(0) 编辑

[语义]情感分析方向近况·0908

摘要：好了，就是这些了。这就是2009年7月和8月国外情感分析方向的一些进展。阅读全文

posted @ 2009-08-19 20:21 老兵笔记阅读(5416) 评论(2) 推荐(0) 编辑

Techmeme进入生化人时代

摘要：昨天，Techmeme宣布雇佣编辑了，是个女的。老外主要的担心在于客观不客观偏颇不偏颇上，这一点与我们国内的考虑大相径庭。但Gabe的反驳也很有力：Techmeme从来都不是客观的，因为人生就不公平!Techmeme将总会带有偏颇，因为是人建造了它!（听上去是不是像keso？）阅读全文

posted @ 2008-12-04 14:00 老兵笔记阅读(1351) 评论(0) 推荐(0) 编辑

浅谈有道热闻的机器智能

摘要：和有道的推广人员聊，我反映的也是大家做研发最经常遇到的问题。由于新闻聚合的根本涉及自然语言处理的文本相似性计算，所以各种新闻聚合产品也都是一个毛病（跟我们最开始的玩聚热点一样）。阅读全文

posted @ 2008-09-21 17:18 老兵笔记阅读(4280) 评论(2) 推荐(0) 编辑

语义，艰难旅程上你所需要知道的

摘要：答某位网友的询问。语义，是一条艰难的旅程。语义，只能做到一些特定的事情而已，算法的正确率是有限的，到了某种精度后，再提高一点点就需要花费大量的时间和耐性。但，它是一个没有天花板的空间。这里水很深，全球高手如云，但一旦进入，就上不封顶，有极大的发展空间。它绝对不是一个人能做成的事情，需要很多人很多钱很多机器。阅读全文

posted @ 2008-07-15 22:53 老兵笔记阅读(1365) 评论(0) 推荐(0) 编辑

随笔分类 - 语义应用

公告