李彦宏“自黑”大数据

大数据最关键的不是技术,是对数据的认知和跨领域的经验

 

http://yangyang.baijia.baidu.com/article/17872

摘要 : 李 彦宏“自黑”大数据 百度向熊孩子众筹创意 杨姐费脑子分析了一下,发现,嘿嘿,百度现在八成是面临了一个如何利用大数据的困惑。 嗯,确切说,不止一个,这个困难呢,分为两部分: 第一部分:百度的大数据中有一部分是没有用的数据。(我猜可能还真不少)连Robin都在黄山的百度联盟大会上说了——那些收集上来的很多数据,例如一个 人的跑步数据,对治病啥的没有任何帮助……他是指宏观上的统计分析这种病的治疗。那么这些数据,其实就是无用的。(在这一点上,Robin是个诚实的大佬 啊,他没有为了吹嘘百度的大数据,就说大数据什么都好……) 第二部分:百度手上的大数据实在太多太杂,现在不知道如何落地形成有用的产品。但是百度又想让大数据“为人民服务”,所以搞了个看起来最“无厘头”的活 动,居然去问计几岁的小朋友们……

 

2014-06-02小白不菜

【听杨姐说】

应百度邀请,昨天六一儿童节带小孩去798逛了逛“小鬼当家”party。看到了百度在搞的“慧眼识花”。

这旁边摆了个二维码——是百度手机语音助手的二维码。而会场上空又悬挂着很多孩子和百度工程师的对话。

杨姐费脑子分析了一下,发现,嘿嘿,百度现在八成是面临了一个如何利用大数据的困惑。

嗯,确切说,不止一个,这个困难呢,分为两部分:

第一部分:百度的大数据中有一部分是没有用的数据。(我猜可能还真不少)连Robin都在黄山的百度联 盟大会上说了——那些收集上来的很多数据,例如一个人的跑步数据,对治病啥的没有任何帮助……他是指宏观上的统计分析这种病的治疗。那么这些数据,其实就 是无用的。(在这一点上,Robin是个诚实的大佬啊,他没有为了吹嘘百度的大数据,就说大数据什么都好……)

第二部分:百度手上的大数据实在太多太杂,现在不知道如何落地形成有用的产品。但是百度又想让大数据“为人民服务”,所以搞了个看起来最“无厘头”的活动,居然去问计几岁的小朋友们……

好吧,这点上,我也服了。

然后呢?百度就想法设法地去开发这些数据——让我们来看看这个活动怎么设计的,这可不是简单地问问“你 幸福吗?”“你将来想干啥?”。百度通过一个“小鬼当家”游戏,通过让小朋友“摇一摇”,跳出两个图片,一个是常见的东东,一个是高科技东东,比如铅笔” 和“机器人”,“鞋子”和“打印机”,“衣服”和“火箭”,让孩子给这两个东东插上联想的翅膀,天马行空的畅想未来科技。

一些熊孩子给出了这样的回答:

“衣服上安装火箭,穿上衣服火箭就能带我飞到天上,当我想下来时,按一下扣子减速,按两下更慢,三下就停住了!”

“未来石头也能链接互联网,在任何时候都能搜索到信息!”

“放学了我用手机打电话给自行车,它就自动开过来了,像悟空的筋斗云一样~”

……

太多了,我就挑了一些给大家展示——为了给那些木有wifi的朋友们省点流量……

不过您别说,3万个小朋友提的这些“幻想”中,俺还真觉得有很多能给百度带来很大启发啊:例如让人类能 和小鸟对话那个——不就是兽语识别吗?这个最符合百度大数据的技术特征:翻译动物的语言……将来可以人兽对话,然后说不定我们不仅能够知道很多大自然的奥 秘,还能知道很多人类之间的秘密……

想象力!或许这正是现在我们成人或缺的,我们不像孩子们那样有足够的想象力和不受技术约束的胡思乱想 ——我们的想象力都被扼杀在“摇篮”中了:草,必须是绿的;云,必须是白的;写大象,必须是两个蒲扇般的耳朵;写熊猫,肯定在吃竹子……开会,必须胜利闭 幕;演出,一定是圆满结束……艾玛,再说下去就是中国的教育体制……那个那个了……以后有时间再表几万字哈。

回来回来。

对了,听说这个“慧眼识花”就是小朋友提出来的对大数据的需求——“这是什么花?”

据说现在百度的花卉的库是最大最全的……所以现在才先推这个。不过,问花的话,光是语音可不行,还得拍张照片去考考百度。

这么玩太没意思啦。

来点够料的——介系绳末花啊?嘿嘿嘿,看百度会不会说“鸡蛋花”哈?

呃,木耳都能识别出来?

嘿嘿嘿,好吧,坏水被识破了。

不过这些回答是不是有点像Siri——回答得都很雷人?而且是中国版的,还有“功力”、“骗纸”这些词呢!

对哈,人们每天在网络上的流行语,百度搜索的爬虫正好都能收集到,而且还有百度贴吧,用户不停滴往里输入流行词,还有百度输入法……

不过涅,语音识别其实比图片识别要高一个层次,这里多啰嗦两句哈——这个功能,俺原本以为是图片对比技术。但实际上没那么简单,要包涵三大技术,并用到深度学习(今天给大家科普一下)。

首先,拍花之后,百度需要将立体的图片转化为平面图片——但这一步的识别准确率只有50%-60%,识别度没有那么高。

其次,百度就要进行“智能问答”可以用语音、图片和文字,调用后台“知识库”。例如问您这个花是几月拍 的啊?这个就是一个“多轮对话”的过程——就跟俺采访的时候追问一样。因为此前百度的花卉库在积累这些花的资料时就建了“知识库”,就包涵了这个花的产 地、花龄……等等其他特征。百度“追问”的问题,就是在库中通过别的参数来继续判定这张图片上的花是啥名字。

经过智能问答之后,识别率能提高到85%以上。

咳咳,注意,第三个技术,百度还要将语音转化为文字,接着让机器读懂这些文字的意思,再在百度云里搜索、计算相关的答案,这是语音识别技术和智能语义理解。

‍‍话说回来,李彦宏同学在黄山上有一段著名的绕口令也挺雷人的:‍‍

‍‍“现在互联网领域留给其他企业的机会越来越少。我想做的是不会告诉你的,我不想做的腾讯和阿里也不会想做。不想做的事情,但是又代表未来趋势的事情非常少。我想做的事情得等我做出来我再告诉你。”……‍‍

‍‍是不是很令人无语?

‍‍不过涅,杨姐偷偷地告诉大家,李彦宏倒是坦白了一件事情是“大趋势”:BAT没有做的企业级软件,另一个方向是大数据领域。‍‍

‍‍但是,李彦宏也承认,因为互联网公司没有跨行业的知识,从而缺乏对数据有用和有效性的认知和挖掘能 力——大数据最关键的不是技术,是对数据的认知和跨领域的经验。未来大数据领域首先需要依靠慢数据的积累,比如通过日常穿戴的眼镜。慢数据的搜集方式就是 从平时正在做的事情中搜集数据。

好吧,“拍花识花”其实仅仅是百度挖掘大数据的一个小应用。

未来手机上要是装个嗅觉传感器,是不是百度也能“闻香识女人”?立刻报出这位女士用的是啥牌子的香水?那未来是不是警犬就要失业了?

要是再装上个什么X光透视,是不是通过手机就能做体检?装上个某某金属探针,是不是就能识别身边的金属?或者宝石……?

‍‍那么这个产品将来是不是有可能发展为“十万个这是啥?”——至少我拍个人民币能告诉我是不是假币吧?

如果您觉得俺做的不好,请您随时告诉杨姐email:xiaobaibucai521@qq.com。如果您觉得小白不菜有趣,请您转发亲朋好友,下狠手,千万别留情。

【小白不菜】微信号:xiaobaibucai521

独家独到毒舌——杨姐告诉你应该知道、有权知道、必须知道的事。我们每个人在自己陌生的领域都是小白,但我们不是菜鸟,我们每天都学习,每天聪明一点点。

我们的口号:一定要幸福!

杨姐,经济观察报资深记者杨阳,从1999年开始做记者,2004年进入经济观察报负责互联网、TMT 等领域的报道,关注产品、商业模式和公关模式。3Q大战时独家报道马化腾采访,独家采访李彦宏、丁磊、张朝阳……小白不菜是杨姐业余时间创办,仅代表个人 观点,与所供职单位的立场没有关系。

“小白不菜”是中国微信自媒体第一联盟“WeMedia”成员,覆盖人群超过1000万。

 

posted @ 2014-07-29 11:56  jseven  阅读(199)  评论(0编辑  收藏  举报