移动视觉搜索

个人定义的移动视觉搜索是指:以移动终端捕获的图像作为检索项,通过互联网检索感兴趣信息的一种信息检索方式

目前,我看到了5个提供移动视觉搜索服务的公司:分别是google goggles, amazon snaptell, nokia point&find, kooabaoMoby。如下图。(图片来自cvpr2010,点击查看论文)

google goggles我感觉是个里程碑式的应用程序,google强大的科学家,工程师和服务器把goggles打造的无比强大。goggles可以识别文字,书籍,商标,地标,酒,名片,条形码,艺术品。种类之多是其他几家远远所不及的(除了oMoby)。感觉google的策略就是人无我有,人有我买。先是买下了HP的OCR引擎tesseract(该引擎是某年OCR比赛的第二名),最近又买来了一家艺术品图像检索的小公司PLinkArt。 在我试用goggles的过程中,感觉goggles的识别精度令人叹为观止,特别是商标和酒类。当然,也有缺点,比如说对不擅长中文书籍的检索,对一般 性的物品无能为力。我现在的愿望就是google能够开放goggles的API,天知道能催生出多少个应用呢。我觉得,当goggles摆在我们面前 时,每一个想做图像检索的人或者公司,都该严肃的想一想,还能做什么,该怎么做。

amazon snaptell是cvchina最早介绍的公司之一。可以识别的对象比较有限,限于书籍,CD/DVD等封面。原本是一票印度人创建的公司,后来被亚马逊收购。目前有iphone上的app可供使用。

nokia point&find是 nokia自家的图像检索引擎。特点是与增强现实结合比较紧密,提供了一些基于地图的服务,比如说扫描条形码,就提供所在城市该商品的各个商店的价格信 息。感觉这是point&find的优势所在,因为它可以跟nokia的Ovi地图服务紧密结合起来。在where2.0和增强现实的概念热得烫 手的今天,point&find是不是很有卖点呢?

kooaba在cvchina上也介绍过了,ETH的大牛们创建的公司,cvpr2010上还有他们的创业心得, 非常值得一看。kooaba的识别目标也比较有限,比不上goggles,跟snaptell差不多,限于书籍DVD等。但是kooaba有个特点是他们 的服务是真正的云计算,用的亚马逊的EC2搭建。而且kooaba还提供API,这是我所知道的目前唯一的图像搜索的API,而且的而且,在一定限度内还 是免费的,每天允许50次免费查询。kooaba旗下有三个(?)面向终端用户的应用paperboykooaba visual search,和shooting star。每一个都很有特点,我觉得kooaba的创始人真的很聪明,不管是学术,开发还是商业,都能玩得转,都是一专多能的人才。kooaba也已实际行动回答了上面的问题:当有goggles时,我们该怎么办?答案就是,寻找不一样的商业模式。

oMoby其实是cvchina以前介绍过的IQ engines旗下的产品。最大的特点是,什么都能识别。听起来有点不可思议是么?答案是这样的,如果机器能识别,当然最好,实在不能,就human sourcing,也就是。。人肉之。你觉得我在忽悠么?看这里

看完这五家移动视觉搜索,我有几个想法,是它们都没有做好的,也是后来者可以超越它们的地方:

1:中文资源的欠缺。这些公司都是欧美企业,数据库里都是西方人关注的资料。想用它们的引擎检索一本中文图书,真是不太可能成功。

2:API欠缺。

3:这些应用都太严肃。能不能发掘一些基于视觉搜索的,比较轻松,好玩,有趣的应用呢?

posted @ 2010-07-09 16:38  searchDM  阅读(769)  评论(0编辑  收藏  举报