企业数据的秘密(读后笔记)(大数据)

　我们的未来能否被预测？
　　在澳大利亚被发现之前，生活在十七世纪欧洲的人们都相信一件事：所有的天鹅都是白色的。因为当时所能见到的天鹅的确都是白色的，所以根据经验，那简直就是一个真理，至少可以算是一个公理吧。那么，见到黑色天鹅的概率是多少呢？根本无法计算，也没有人想过要计算。直到1697年，探险家在澳大利亚发现了黑天鹅，人们才知道以前的结论是片面的。
　　这证明了我们的认知是多么局限：虽然你是在观察了几百万只天鹅之后才得出了“所有的天鹅都是白色的”结论，但只需要另一个发现就能将它彻底推翻——2007年，全球最具影响力的商业思想家塔勒布用一本《黑天鹅》几乎让世人绝望：我们总是以为自己知道得很多，能够预测未来，但一次极端事件，就足以影响整个历史的走势。
　　我们的未来真的不可能被预测吗？
　　每一天，我们的电子邮件都保存在电邮供应商的日志文件中；我们的通话记录都被加上时间标记备份在电话公司的大容量硬盘上；我们何时何地买了什么东西，我们的喜好、品味以及支付能力都被信用卡提供商编目归档；我们的所有个人网页、空间、微博、即时通讯文件，还有博客信息。都被保存在多个服务器上；我们的即时行踪完全被手机供应商掌握；我们的容貌和穿着打扮都被安装在各大商场和街角的摄像头捕捉并记录……
　　我们通常不太在意，但我们的生活完全能被这些如雨后春笋般出现的数据库所记录的信息串联起来。马克·吐温曾说，历史不会重演，却自有其韵律。虽然万事皆显出自发偶然之态，但实际上，它远比你想象中的容易预测。
　　进而，全球复杂网络权威巴拉巴西通过研究大胆地认为，93%的人类行为是可以预测的。
　　这是另一种颠覆性的结论。用巴拉巴西的话来说，当我们将生活数字化、公式化以及模型化的时候，我们会发现其实大家都非南相似，生活如此抵触随机运动，渴望朝更安全、更规则的方向发展。人类行为看上去很随意、很偶然，却极其容易被预测。
　　如果真有93%的人类行为可以被预测，这还意味着，我们的商业行为同样可以进入可掌控的范围——而这，就是企业数据里的秘密。
　　大数据时代的商业规则
　　数据井喷
　　5月18日，脸谱网（Facebook）在美IPO上市。在所有交易完成之前，几乎没有人敢说自己有把握去预测它上市当天股价的走势，但一家社交媒体监测平台却奇迹般地做到了。
　　这家监测平台监测了脸谱IPO当天推特（Twitter）上的情感倾向与脸谱股价波动的关联。例如，在开盘前推特上的情感逐渐转向负面，25分钟之后，脸谱的股价便开始下跌；而当推特上的情感转向正面时，其股价在8分钟之后也开始了回弹；当股市接近收盘时，推特上的情感转向负面，10分钟后股价又开始下跌。
　　最终的结论是，推特上每一次情感倾向的转向都会影响脸谱网股价的波动，延迟情况只有几分钟到20多分钟。
　　这仅仅只是基于社交网络产生的大数据进行“预见未来”的众多案例之一，事实上“大数据”所能带来的巨大商业价值，已经被人认为将引领一场足以匹敌20世纪计算机革命的巨大变革。
　　今古至今，从未有一个时代出现过如此大规模的数据爆炸。2010年，全球企业一年新存储的数据就超过了7000拍字节。全球消费者新存储的数据约为6000拍字节，这相当于十多万个美国国会图书馆的藏书量。
　　而在2006年，全世界的电子数据存储量还仅为18万拍字节，如今这个数字已经达到180万拍字节，短短五六年间就已经增长了一个数量级。根据预测，2015年这个数字甚至会达到天文数字般的800万拍字节。
　　就在此时此刻，海量数据正在源源不断地产生。每一天，无数的数据被搜集，从不停息。“过去3年里产生的数据量，比以往4万年的总和还要多，大数据时代的来临已经毋庸置疑。我们即将面临一场变革，新兴大数据将成为企业发展的当务之急，而常规技术已经难以应对拍字节级的大规模数据量。这一变化所带来的挑战。是成功的企业在未来发展过程中必须要面对的。只有那些能够运用这些新数据形态的企业，方能打造可持续的重要竞争优势。”美国奥巴马总统委员会的科学技术顾问、天睿（Temdata）公司首席技术官斯蒂芬如此总结。
　　数据生产力
　　什么样的男人更容易找到老婆？
　　百合网研究规划部李琦曾经对百合网上海量注册用户的头像信息进行分析，发现那些受欢迎头像照片不仅与照片主人的长相有关，同时照片上人物的表情、脸部比例，清晰度等因素也在很大程度上决定了照片主人受欢迎的程度。而那些脸部比例占照片1/2、穿着正式、眼神直视没有多余姿势的男性，更容易成为婚恋网站上的宠儿。
　　作为一家婚恋网站，百合网不仅需要经常做一些研究报告，分析注册用户的年龄、地域、学历、经济收入等数据，即便是每名注册用户小小的头像照片，背后也大有挖掘的价值。
　　让我们再放眼世界，全球市值最大的连锁餐饮企业麦当劳、零售业中的巨无霸沃尔玛、在线零售巨头亚马逊，这个时代最炙手可热的三家企业，如果说它们之间存在着什么相关性的话，会是什么呢？没错，数据。
　　麦当劳的强大在于它卖的不仅仅是汉堡，而是在从事一个精准选址，对数据深入挖掘的“房地产生意”。而另一家早已认识到数据对创造优势的重要性，而且每年因此获得了超过预期的增长公司，则是亚马逊。它能够利用独有的客户交易数据推动定制化产品的销售和定价决策，而且其产品线的广度前所未有。这就是亚马逊一直以来能与无数零售商和电子零售商展开激烈竞争的关键优势所在。
　　沃尔玛更是最早通过利用大数据而受益的企业之一。其一度拥，有世界上最大的数据仓库系统，通过对消费者的购物行为等数据进行分析，沃尔玛成为最了解顾客购物习惯的零售商，并创造了“啤酒与尿布”的经典商业案例。2007年，沃尔玛建立了一个超大的数据中心，其存储能力高达4拍字节以上。《经济学人》在2010年的一篇报道中指出，沃尔玛的数据量已经是美国国会图书馆的167倍。
　　而早在1969年，沃尔玛就开始使用计算机来跟踪存货，1974年就将其分销中心与各家商场运用计算机进行库存控制。1983年。沃尔玛所有门店都开始采用条形码扫描系统。1987年，沃尔玛完成了公司内部的卫星系统安装，该系统使得总部、分销中心和各个商场之间可以实现实时、双向的数据和声音传输。

采用这些在当时还是小众和超前的信息技术来搜集运营数据，为沃尔玛最近20年的崛起打下了坚实的地基。如今，在沃尔玛全世界最大的数据仓库中存储着数千家连锁店在65周内每一笔销售的详细记录，这使得业务人员可以通过分析购买行为更加了解他们的客户。
　　实际上，各个行业都出现了以数据分析为竞争形式的企业。这些企业当中，既有网络时代的新秀，如谷歌，也有经营了百年的品牌，如宝洁。它们都在数据分析的基础上与其他企业展开竞争，同时又都是行业中的佼佼者。这两个特点是相互联系的，也就是说，正是因为这些公司大规模地采用了数据分析的方法，它们才成为行业中的领先者。
　　开启新商业时代的钥匙
　　数据已经如一股“洪流”注入了世界经济，成为全球各个经济领域的重要组成部分。麦肯锡公司预计，数据将与企业的固定资产和人力资源一样，成为生产过程中的基本要素。而在今年年初的瑞士达沃斯论坛上。一份题为《大数据，大影响》的报告同样认为，数据已经成为一种新的经济资产类别，就像货币或黄金一样。
　　这是大数据时代的独特现象。和其他的生产要素相比，数据无疑又具备更独特的特点。例如，工业生产过程中的原材料，一般都有排他性，但数据很容易实现共享，而且使用的人越多，其价值越大；数据也不像机器、厂房，会随着使用次数的增多而贬值，相反，重复使用反而可能使它增值。此外，此数据和彼数据如果能有机地结合到一起，可能就会产生新的信息和知识，并且实现大幅增值。
　　麦肯锡的报告继而指出：“已经有越来越多令人信服的证据表明：大数据将成为竞争的关键性基础，并成为下一波生产率提高、创新和为消费者创造价值的支柱。”
　　显然，数据的重要性已经提升到竞争性要素的高度。众所周知，信息时代的竞争，不是劳动生产率的竞争，而是知识生产率的竞争。数据是信息的载体，是知识的源泉，当然也就可以创造价值和利润。
　　可以预见，基于知识的竞争，将集中表现为基于数据的竞争。而这种数据竞争，将成为经济发展的必然。
　　美国信息经济领域的著名教授托马斯·达文波特认为，随着全球竞争的不断深化，企业的地理优势也将淡化，各种国家和地区性的保护措施也将逐步取消，一项专利很快会被模仿、复制、推广，创新将越来越艰难。但在除去这些要素之外，还有一点可以构成企业竞争的基础，那就是以“低成本、高效率”的方式来开展公司的业务。这种竞争，要求公司制定流线型的商业过程，各个过程之间必须无缝隙、无摩擦地对接，并保证每一个商业决策明智、正确，在竞争的过程中不犯错误。
　　而要做到这些，企业必须广泛推行以事实为基础的决策方法，大量使用数据分析来优化企业的各个运营环节，通过基于数据的优化和对接，把业务流程和觉得过程当中存在的每一分潜在的价值都挤出来，从而节约成本，战胜对手，在市场上幸存。
　　达文波特认为，能够始终保证自己以“数据最优”的方式运营的公司，将会在竞争中坚持到最后。因为，粗放型经营的公司最终将因“高成本”而自动出局。
　　事实上，这种以数据分析为竞争能力的公司都是各自领域的领袖，他们都把自己的成功归功于对数据分析的娴熟应用。全球性的竞争正在变得更加激烈，这加剧了这种需要。而在西方发达国家的公司看来，和中同、印度的竞争对手相比，他们无法在产品成本方面获得优势，但其最大优势就是能在商业过程的优化方面不战而胜。
　　会员数据分析
　　塔吉特：比父亲更早知道女儿怀孕
　　曾经有一位男性顾客到一家塔吉特店中投诉，商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商，会搞出如此大的乌龙？但经过这位父亲与女儿进一步沟通，才发现自己女儿真的已经怀孕了。
　　一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢？每位顾客初次到塔吉特刷卡消费时，都会获得一组顾客识别编号，内含顾客姓名、信用卡卡号及电子邮件等个人资料。日后凡是顾客在塔吉特消费，计算机系统就会自动记录消费内容、时间等信息。再加上从其他管道取得的统计资料，塔吉特便能形成一个庞大数据库，运用于分析顾客喜好与需求。
　　塔吉特的统计师们通过对孕妇的消费习惯进行一次次的测试和数据分析，得出了一些非常有用的结论：孕妇在怀孕头三个月过后会购买大量无味的润肤露；有时在头20周，孕妇会补充如钙、镁、锌等营养素；许多顾客都会购买肥皂和棉球，但当有女性除了购买洗手液和毛巾以外，还突然开始大量采购无味肥皂和特大包装的棉球时，说明她们的预产期要来了。
　　在塔吉特的数据库资料里，统计师们根据顾客内在需求数据，精准地选出其中的25种商品，对这25种商品进行同步分析，基本上可以判断出哪些顾客是孕妇，甚至还可以进一步估算出她们的预产期，在最恰当的时候给她们寄去最符合她们需要的优惠券，满足她们最实际的需求。依靠分析消费者数据，塔吉特的年营收从2002年的440亿美元扩大到2010年的670亿美元。这家成立于1961年的零售商能有今天的成功，数据分析功不可没。
　　类似案例特易购优惠券的秘密
　　发放优惠券吸引顾客其实已经是很老套的做法了，而且许多的促销活动实际只是来掠夺公司未来的销售额。然而，依赖于扎实的数据分析来定向发放优惠券的特易购，却可以维持每年超过1亿英镑的销售额增长。
　　特易购同样有会员数据库，通过已有的数据，就能找到那些对价格敏感的客户，然后在公司可以接受的最低成本水平上，为这类顾客倾向购买的商品确定一个最低价。这样的好处一是吸引了这部分顾客，二是不必在其他商品上浪费钱降价促销。
　　特易购每季会为顾客量身定做6张优惠券。其中4张是客户经常购买的货品，而另外2张优惠的内容，虽然该客户从来没有买过，则是根据该客户以往的消费行为数据分析，极有可能在未来会购买的产品。仅在1999年，特易购就送出了145000份面向不同的细分客户群的购物指南杂志和优惠券组合。
　　依靠数据分析，特易购通过这样有目标的降价，从竞争对手那里吸引来更多的顾客。更妙的是，这样的低价无损公司整体的盈利水平。通过追踪这些短期优惠券的回笼率，了解到客户在所有门店的消费情况，特易购还可以精确地计算出投资回报。

潘多拉的数据魔方
　　美国一家名为潘多拉（Pandora）的在线音乐网站，就特别聘请一些音乐专家，让他们每个人平均花上20分钟去分析一首歌曲，并赋予每首歌400种不同的属性。如果你表示喜欢一首歌，程序会自动寻找跟这首歌“基因”相同的歌曲，猜测你也会喜欢并推荐给你。借助这种人海战术，潘多拉网站已经分析了74万首歌曲。2011年6月15日，这家采用推荐引擎技术的网站登陆美国纽约交易所上市。
　　商业中情局
　　Acxiom：比谷歌更无所不知
　　比FBI更无孔不入，比Google更无所不知，比Facebook更无处不在……Acxiom就是这样一个鲜为人知而又举足轻重的存在。其主要业务是“基于数据的市场营销”，帮助企业精准定位它的潜在客户，将服务和产品卖给有需求的客户。上一个财年，它的利润达到7726万美元，销售额达到11.3亿美元。
　　在2010年的投资者演讲大会中，Acxiom虚构了一个名为Scott Hughes的角色，以演示在大量数据的帮助下精准营销的力量。在演示期间，Hughes登陆了Facebook账号，看到他的朋友刚刚成为电子设备商店Bryce的粉丝。Hunghes也点进了Bryce浏览其中的商品，打算购买喷墨打印机。这个行为被Acxiom捕捉到，它会识别消费者的身份，记忆他们的选择，分辨他们的行为，通过合适的市场营销来影响他们。
　　当Hughes再回到Bryce，Acxiom就会通过他在Facebook上的活动记录，向他推荐一款符合他要求的打印机。不过，他注册了网站，但还是没有买打印机。然后，Acxiom通过网络来追踪Hughes的去向。
　　第二天，当Hughes打开ESPN.com查看体育新闻，“啪”又出现一个打印机的广告。到了傍晚，他回到Bryce的网站，然后网站显示他拥有了10美元返现——这不是随便显示的消息。Acxiom将收集到的和Hughes有关的数据进行了分析处理。Hughes被判定为属于那群喜欢移动设备，属于中产阶级，常用手机转账，会参加专业运动聚会，对价格敏感的那群人。于是Acxiom给Hughs了10美元折扣，成功出售了打印机。
　　目前，Acxiom已经拥有美国1.9亿人，以及1.26亿个家庭的数据资料。同时，财富100强的公司中，有47个是它的客户。更厉害的是，“9·11”事件过后，它还因协助美国政府提供了19个劫机者中11个人的资料而名声大振。
　　类似案例
　　Splunk
　　今年4月，成立于2003年的数据软件公司Splunk在纳斯达克以16亿美元的市值上市，给大数据行业打了一针兴奋剂。Splunk提供的软件产品可以用于监控、分析实时及历史的机器数据，同时为这些海量数据建立索引，将其整理成可以搜索的链接。客户企业的IT管理员再也不用在错误发生时逐个排查纠错了。还有游戏公司使用他们的软件监测游戏功能，确定玩家卡在什么地方，然后游戏公司就可以即时调整游戏，以挽留玩家。
　　从创立至今，Splunk的客户数量已接近4000家，遍布全球75个国家，其中一半以上为《财富》100强公司。
　　潘吉瓦
　　《商界》曾于2010年10期报道过的潘吉瓦公司，同样是用数据分析来撬动全球贸易。比如，他们通过41次追踪《暮光之城》的徽章、袜子的运输情况，分析在这部电影中主角的服饰对流行趋势有多大影响率，并将分析结果告知用户，建议他们对自己的行动作出恰当的调整。
　　让营销嗨起来
　　用数据构建不一样的大悦城
　　北京朝阳大悦城2011年销售额突破10亿元。对于地处非核心商圈的大悦城来说，这是一个不错的首年成绩。朝阳大悦城组建了一个数据团队，实验是以数据为驱动打造一个全新购物中心。
　　数据部员工招聘中，考试题目是“分析米兰时装周流行趋势”。而最有特色的回答则是，某技术宅男编了一个关键字搜索器，对所有网上搜到的时装周图片说明进行关键字抓取，然后排序……最后将一份图文并茂、数据说话的流行趋势报告摆在了主考官的桌上，最后成功入选。
　　这个数据团队干了些什么事呢？
　　在大悦城的某处有一个柱子，数据团队在分析客流量的时候发现，很多消费者走到这儿后只是左右平行的移动，直接错过了柱子后面的商铺。于是大悦城在柱子的位置弄了个洞，消费者觉得这儿有一个有意思的洞，就进去看看，从而引导了消费。
　　团队还对电梯进行了调整。朝阳大悦城有12层，整个项目里面各种电梯有上百部，怎样利用电梯把客流输送到重点商铺，去提升整个项目的销售是个问题。数据团队取消了在南部和北部的两部电梯，以免破坏整个顾客流动线，对租金测算以后，再把这两边进行出租，400平方米，多了两家商铺的租金收入。
　　日常的数据分析是每天的功课。对朝阳大悦城来说，车流的变化对销售有非常重要的意义，车流增长快就说明今天客流量的增长会比较快，销售也会联动上涨；再比如今天是大风天气，根据经验，销售可能会下降2%，而且集中在零售业态。那么，大悦城会马上组织“限时抢购”之类的针对性的营销策略。
　　去年的一天，朝阳大悦城的销售和客流突然出现了一个小的峰值，经过种种数据测算和比对，在排除节假日、推广促销等因素后，造成销售额增长的答案竟然是当天是“世纪对称节”——2011年11月02日。
　　这个成熟人士不屑一顾的“脑残”节日，却受到了年轻人的热烈追捧。受“对称节”销售小高潮的启发，大悦城已经在为今年的各种稀奇古怪的节日提前做促销和推广的准备，比如对号称今年最值得期待的“金星凌日”天象，大悦城就推出了相关的天文主题活动。如果不是通过数据分析，很难猜测到销售额产生异动的真正原因，推广部门也会错失一系列的活动主题。
　　数据和推广最漂亮的一次配合，是2011年的圣诞平安夜。
　　根据2010年的历史数据，数据团队推算出2011年圣诞平安夜的当天销售额应该在800万元。而上午的10点—12点、下午2点—4点是客流的低谷期，如果能提高这两个时段的客流和销售额，将会对全天的销售额起到带动效果。

这两个时段主要是家长带孩子来逛，所以推广部门向家长们推送“买1000返100”的最大幅度优惠。到了晚上9点到12点，平安夜的重头戏浪漫情侣档上演，这时候推送的信息变成时尚品牌折上折的“疯狂三小时”。由于针对全天的不同时段进行差异化营销，2011年的平安夜，朝阳大悦城的销售额超过1000万元人民币，远远超过同行业的增长率。
　　类似案例“新”公司耐克：
　　耐克近期最引人注目的事件是凭借一种名为Nike+的新产品变身为大数据营销的创新公司。所谓Nike+，是一种以“Nike跑鞋或腕带+传感器”的产品，只要运动者穿着Nike+的跑鞋运动，iPod就可以存储并显示运动日期，时间、距离、热量消耗值等数据。用户上传数据到耐克社区，就能和同好分享讨论。
　　耐克和Facebook达成协议，用户上传的跑步状态会实时更新到账户里，朋友可以评论并点击一个“鼓掌”按钮——神奇的是，这样你在跑步的时候便能够在音乐中听到朋友们的鼓掌声。随着跑步者不断上传自己的跑步路线，耐克由此掌握了主要城市里最佳跑步路线的数据库。
　　有了Nike+，耐克组织的城市跑步活动效果更好。参赛者在规定时间内将自己的跑步数据上传，看哪个城市累积的距离长。伦敦那次活动的参与者在15天的活动中发起的跑步总距离相当于绕地球半圈：1.25万英里（相当于2.02万公里）。
　　凭借运动者上传的数据，耐克公司已经成功建立了全球最大的运动网上社区，超过500万活跃的用户，每天不停地上传数据，耐克借此与消费者建立前所未有的牢固关系。海量的数据同时对于耐克了解用户习惯、改进产品、精准投放和精准营销又起到了不可替代的作用。因为顾客跑步停下来休息时交流的就是装备，“什么追踪得更准，又出了什么更炫的鞋子。”Nike+甚至让耐克掌握了跑步者最喜欢听的歌是哪些。
　　分析师称，Nike+的会员数在2011年增加了55%。而耐克公司的跑步业务营收增长了30%，达到28亿美元，Nike+功不可没。
　　用数据为消费者360度画像的宝洁：
　　2011年，宝洁与百度双方开放了各自优势资源，着眼于深度研究用户行为大数据，包括市场研究、商业合作探索和大事件、品牌合作三个部分。百度基于真实的用户行为数据和多维度研究工具，帮助宝洁进行“品牌探针”、“消费者画像”等分析，找到其地域分布、兴趣爱好、媒体接触点等背后隐藏的信息。
　　以宝洁旗下重点品牌“玉兰油”为例，百度在帮助其进行受众分析时发现，很多消费者对玉兰油产品的年龄定位比较模糊，不同地域对品牌的关注点、兴趣点也有明显不同。据此，宝洁适时地调整了营销策略，还顺势专门推出了一款针对25岁人群的细分产品，不出所料，这款产品迅速进入热销阶段，并且大受好评。
　　生活类应用的数据商机
　　为天气买份保险
　　遇到过出门旅游、重要户外路演、举办婚礼等重要时刻却被糟糕的天气弄坏心情甚至造成经济损失的情况吗？全球第一家气象保险公司“天气账单”能为用户提供各类气候担保。
　　具体做法是，客户登录“天气账单”公司网站，然后给出在某个特定时间段里不希望遇到的温度或雨量范围。“天气账单”网站会在100毫秒内查询出客户指定地区的天气预报，以及美国国家气象局记载的该地区以往30年的天气数据。通过计算分析天气数据，网站会以承保人的身份给出保单的价格。这项服务不仅个人用户需要，一些公司，比如旅行社，也很乐意参与。
　　类似案例堵车预言家
　　交通流量数据公司Inrix最近又获得了3700万美元的投资。依靠分析历史和实时路况数据，公司能给出及时的路况报告，以帮助司机避开正在堵车的路段，并且帮他们提前规划好行程。汽车制造商，移动应用开发者，运输企业以及各类互联网企业都需要Inrix的路况报告。比如奥迪、福特、日产、微软等巨头都是Inrix的客户。
　　跳槽之前找到你
　　真正的技术人才永远是各大公司的抢手货。绝对不要坐等他们向你投简历，因为在他们还没有机会写简历之前很可能已经被其他公司抢走了。在去年7月创立的Entelo公司能替企业家们推荐那些才刚刚萌发跳槽动机的高级技术人才，以便先下手为强。
　　Entelo的数据库里目前有3亿份简历。而如何判断高级人才的跳槽倾向，Entelo有一套正在申请专利的算法。这套算法有70多个指标用于判定跳槽倾向。某公司的股价下跌、高层大换血、刚被另一大公司收购，这些都会被Entelo看作是导致该公司人才跳槽的可能性因素。于是Entelo就会立刻把该公司里的高级人才的信息推送给订阅了自己服务的企业家们。
　　不仅如此，企业家们收到的简历跟一般的简历还不一样。Entelo抓取了这些人才在各大社交网络的信息。这样企业家们可以了解该人提交过哪些代码，在网上都回答了些什么样的问题，在Twitter上都发表的是些什么样的信息。总之，这些准备“挖角”的企业家能够看到一个活生生的目标人才站在面前。
　　数字驯冰师
　　水向来是个不好管理的东西：自来水公司发现某个水压计出现问题，可能需要花上很长的时间排查共用一个水压计的若干水管。等找到的时候，大量水就这么被浪费了。
　　以色列一家名为Takadu的水系统预警服务公司解决了这个问题。Takadu把埋在地下的自来水管道水压计、用水量和天气等检测数据搜集起来，通过亚马逊的云服务器传回Takadu公司的电脑进行算法分析，如果发现城市某处地下自来水管道出现爆水管、渗水以及水压不足等异常状况，就会用大约10分钟完成分析生成一份报告，发回给这片自来水管道的维修部门。报告中，除了提供异常状况类型以及水管的损坏状况——每秒漏出多少立方米的水，还能相对精确地标出问题水管具体在哪里。检测每千米“水路”Takadu的月收费是1万美元。
　　医生导师
　　以色列的另一家公司Given Imaging发明了一种胶囊，内置摄像头，患者服用后胶囊能以大约每秒14张照片的频率拍摄消化道内的情况，并同时传回外置的图像接收器，患者病征通过配套的软件被录入数据库。最后，在4小时至6小时内胶囊相机将通过人体排泄离开体外。

一般来说，医生都是在靠自己的个人经验进行病征判断，难免会对一些疑似阴影拿捏不准甚至延误病人治疗。现在通过Given Imaging的数据库，当医生发现一个可疑的肿瘤时，双击当前图像后，过去其他医生拍摄过的类似图像和他们的诊断结果都会悉数被提取出来。可以说，一个病人的问题不再是一个医生在看，而是成千上万个医生在同时给出意见，并由来自大量其他病人的图像给出佐证。这样的数据对比，不但提高了医生诊断的效率，还提升了准确度。生产性部门中的数据创新应用
　　做数据化的柑橘
　　日本农林水产业在信息技术战略性应用领域一直步伐缓慢，而如今也已经开始应用大数据分析。如果通过应用信息技术，生产出香甜度更优良的农产品，就可以提高产品竞争力，还可以向经济增长迅猛的新兴市场出口产品和进行技术指导，农林水产业的发展前景就会更加广阔。
　　位于和歌山县有田市的农业生产法人“早和果树园”在果园内配备了传感器，用以收集气温、气压、降雨量和光照量等20种数据。这一举措的目的，是扩大该县特产柑橘“味一柑橘”的产量。味一柑橘的含糖量在12度以上，去年收获季节的供货价格相比普通品种高了6成。早和果树园为提高在总生产量中味一柑橘所占的比重，引进了信息技术。主管生产的董事松本将辉充满期待地表示，“希望这成为重新看待依靠多年农业经验和感觉来进行柑橘栽培的良好契机”。
　　例如，吸收水分较少的柑橘的含糖量会更高。在柑橘培育过程中，通过传感器来收集土壤含水量的信息，在收获之后，分析柑橘含糖量与土壤含水量的关联性。此外，再给每棵果树编出号码，果园员工在巡回检查时，通过智能手机拍下害虫等的照片，然后再加以保存。如果能够得出柑橘培育、水分吸收量、降雨量以及害虫发生量等等众多数据之间的相关性，就可以根据这些数据来确定第二年农业生产的日程安排，其中包括何时开始铺上抑制水分吸收的薄膜。
　　类似案例运用大数据集中管理鱼类信息
　　作为日本国内著名渔港，北海道钏路港也将这用大数据分析以推进流通环节改革。通过这项计划，可以集中管理配送时的温度、库存以及接发订单等数据。与此同时，渔业捕捞业者、流通业者、餐饮店以及消费者都可以确认相关信息，以进行流通环节追溯（生产记录管理）。此外，这项计划还将收集微博、推特、脸谱网上的客户发言、反馈到呼叫中心的消费者心声以及客户购买记录等信息，在此基础上，结合有关运输管理和消费者偏好的庞大数据进行分析。并将分析结果用于研发受客户欢迎的加工食品。
　　大数据分析的应用正在广泛领域得到全面展开，其中包括从平常积累的大量数据中发掘新的商机，以及借此推进生产和流通系统改革等内容。
　　来一场数据时代的生意
　　大佬们的数据争夺战
　　围绕用户行为数据的争夺早已展开。2011年10月，京东商城修改了网站设置，拒绝阿里巴巴集团旗下的购物搜索引擎一淘网抓取其商品信息以及用户的点评内容。京东CEO刘强东称，一淘直接抓取了京东所有的产品评价，而这些产品评价是京东花费了价值过亿元的积分激励用户写出来的。随后苏宁易购、当当网等通过技术手段抵制一淘对其平台数据的抓取。这被认为是用户行为数据争夺战升级的信号。
　　事实上，怎样管理和使用数据，是一件非常重要的事情。任何行业都会有竞争，每一个行业最后胜出的那家公司一定有着完整、优秀的数据战略。它对数据资产怎么保存，怎么使用，有清晰的规划和投资。
　　网络购物的蓬勃发展一方面给消费者带来便利，另一方面又让消费者在海量商品前陷入比较、挑选的焦虑。于是导购电商应运而生。前有美丽说、蘑菇街，后有一淘、拖拉网、逛淘宝等。
　　说到底，导购就是要让消费者更快找到想要的东西，减少挑选成本，缩短购物路径，然后还可以通过“猜你喜欢”推荐相关商品达成关联销售。这背后其实涉及到技术活：网站需要自动根据用户的种种消费习惯和行为进行后台的技术运算，进行“大数据挖掘”的自动匹配和个性化呈现。
　　同为导购电商的拖拉网属于自力更生型。其制作了“明天穿什么”这一应用，在这个应用当中，众多时装圈权威人士输送时装搭配与风格单品，由用户任意打分，根据用户的打分偏好，拖拉网便能猜到明天她们想穿什么，然后为她在数十万件网购时装中推荐单品，并且实现直通购买下单。
　　逛淘宝做得更“彻底”。和其他网站要求消费者注册成为自家会员不同，逛淘宝的入口没有单独注册，全是由微博、淘宝、豆瓣等各平台账号。这样一是方便，二是可以通过授权抓取更多的用户特征。即使你是首次使用，没有任何轨迹的用户，在进入“我的街”时也会有10道问题，如性别、年龄、网购频次、喜欢风格等，用户通过简单的判断一旦产生动作，就会一步步迅速适应。
　　在获取客户数据后，后台分析也是各显神通。
　　拖拉网加入了更多变量来考核自己的推荐模式。比如有消费者明天要参加一个聚会，不知道要穿什么风格，也没有看天气预报，希望导购网站能帮她把这些场景和自己的信息组合起来，给出一整套的解决方案。于是日期（天气）、地域、场合、风格，这些都成为穿衣搭配解决方案的变量，经过不断的组合呈现给用户，据拖拉网数据，用户在看到一个比较优质的搭配，并有场景性引导的时候，点击到最后页面完成购买的转化率会比单品推荐高40%。
　　一淘在导购过程中，则努力用数据分析在消费者、商家和自己间找到一个平衡点。
　　淘宝本身就有好差评、DSR（如实描述、发货速度、服务态度）评分等评价体系，一淘做得更有细节。一淘有三个排序维度：首先是产品相关性，其次是产品来源，再次是销量以及评价。
　　导购电商面临的是一个女性消费占绝对优势的市场，或许是因为时尚类的维度太多，每个人喜欢一件东西的心理原因、场合、偏好、价格等多重因素都不一样，这对后台数据挖掘提出了更复杂的要求，也成为已经日渐拥挤的电商导购市场的破局点。
　　亚马逊就是一开始就对用户的购买进行深入的数据挖掘，当读者购买某书的时候，向读者精准的推荐相关的读物；然后再通过图书业务单点突破，全面扩张，最终才成为了业务内涵丰富的电子零售霸主。实操一
　　时尚买手的数据化生存
　　提起时尚买手，大家总觉得这是个和时装周、周游世界、华服等关键词搭配在一起的工作。其实真要为这个工作选一个关键词，绝对是和时尚一点扯不上关系的——“数据”。
　　靠着过人的时尚天赋挑选衣服一类的说法，都是外行人看的“热闹”。你当然可以靠“灵敏”的“时尚嗅觉”来进货，不过滞销了是要赔的。比如ZAKA，要求将滞销款率控制在6%的范围内。如果超出了这个比例，买手需要自己掏钱把滞销的货品买进。
　　作为一个时尚买手，在订货前需要对比历史数据，确定下一季整体销售的指标，包括货品数量、款式、品种，确认此次购买金额的可行性、月份分配的合理性、预留追单金额等。拿着计划才能进行款式挑选、拟定订单数量。因为整个工作流程牵涉到太多方面的数据分析，下面就单独说说进货的事儿。
　　首先预算采购额并不神秘，买手公式是：采购额=（计划销售额+预估季末存货额+预估减价额—预估季初存货额）×平均拿货折扣。
　　比如说，买手的任务是下一季计划销售额100万元，下一季初大概会有上一季没卖掉的10万元存货，下一季的服装减价额度大概是25万元，也就是相当于平均每件衣服8折出售，估计在下一季末会有15万元的存货，进货时的平均折扣是4折。那么计划采购额就应该是：[100万元（计划销售额）+15万元（预估季末存货额）+25万元（预估减价额）—10万元（预估季初存货额）]×40%=52万元。
　　这52万元要采购哪些衣服，又得回到数据分析，这回是考虑历史销售数据。以ZARA为例，ZARA买手们会从终端店铺的销售数据分析中，确定上一季度的延续产品，占到ZARA每一季度新产品比例的20%。而通过对竞争对手产品的分析，ZARA买手会再使用30%比例的竞争对手的品牌延续款。这样，在每一季度的新产品开发中，就会有50%左右的延续款产品。延续款开发一直是欧美服饰企业产品开发的重点，因为原有的市场销售已证明其商业价值，故延续开发能保证其利润。
　　基于历史数据分析出来款式并不能保证通吃。利润型商品可能因为随着别的店铺纷纷跟风而丧失利润优势，变成了畅销型商品。畅销型商品因为销量大，即使单价利润空间不大，总体利润也比较可观。但如果订货太多，在流行的旋风刮过之后，最后很可能形成大量的库存。
　　作为买手，会分析一些店铺，常常有这种情况：一个季可能有5个款销量非常好，于是不断追加那5个款的订货量，每个月的销售额看起来都不差，但到了季末算总账的时候却发现店铺并没有盈利。导致这种状况的原因就是销售过分集中在个别款式上，“死货”的面积太大，导致占用资金成本大。真正会盈利的店铺是库存控制得很好的店，也就是说，店里的货都能卖，有卖得很好的，有卖得比较差的，但整体库存比较少。没有库存的压力，商品的平均销售价格就不会降得很低，这样就能赢取更大的利润。
　　正确地评估一个买手，其实只需要2个数据：一个是库存周转率，另外一个就是毛利率。毛利率的高与低，反映的是买手采买商品获利空间的大与小：越是顾客喜欢的商品，折扣率就会越低。毛利空间也就越大。但是毛利率大并不一定就赚钱。采买成本10元钱，销售价格100元，毛利率90%，半年只卖出1次，也就赚到90元；同样采买成本10元钱，销售价格40元，毛利率只有75%，如果半年卖出4次，却可以赚到120元……买手如何平衡库存周转率与毛利率，是一种艺术。而如何发现问题，进行调整又需要什么参考依据，还是得靠数据分析。
　　实操二
　　打造网上商城爆款
　　“爆款”（销量很高的人气商品）是当下最热的电商词汇。那么，如何通过数据来打造“爆款”？
　　我们最先优化的是宝贝标题，以便让买家更容易找到。方法很简单。在淘宝首页的搜索栏里搜索“长袖、T恤、女”，把人气最高的前10名宝贝标题的关键词进行分解，再放到excel列表里点击排序，结果看到“年份词”（如2010、2011）出现9次，“T恤”出现10次，“包邮”词出现5次，“韩版”出现10次……把出现频次次数高的关键词和与我们的T恤相匹配的关键词组成一个标题，然后再把没能放进标题里的关键词（因为宝贝标题有字数限制）再组成另一个标题：
　　包邮、2011新款、韩版女装、长袖、牛奶丝T恤、圆领、秋冬打底衫；
　　两件包邮、2010新款女装、韩版、长袖T恤、低领打底衫、加厚冬装。
　　把这两个标题投放到直通车里进行测试，通过点击量点击率来判断哪个标题是买家更喜欢的标题。标题1胜出。
　　下一步该优化宝贝的图片。分析人家的图片，规律如下：用单人模特的7个；展示产品颜色4个；中间位置（模特摆放位置）3个；5个50%（模特摆放位置）左右位置；有背景图6个；黑色T恤（模特T恤颜色）5个。
　　通过以上数据判断，优化的结果是；
　　单人模特、穿黑色T恤、站在左侧、右侧显示T恤颜色、有背景色；
　　另一张图片加了“包邮”二字。
　　同样通过直通车测试，测试的结果是带有“包邮”字样的图片点击率更高。
　　第三步是一个核心问题，就是价格。人气宝贝的价格如图：
　　excel的表格显示的中位数价格分别是：41.3、41.99，平均后的价格是41.6。那么41.6的价格是不是买家喜欢的？把最高、中间、最低三种价格在直通车里进行测试，注意：这时我们要的测试结果不是点击率，而是转化率。同时，这时用成交笔数去考核指标偶然性太大，用旺旺的质询量作为考核指标应该更准确。三个价格的结果出来了：
　　价格88点击66质询量7质询转化率10.6%；
　　价格41.6点击93质询量16质询转化率17.2%成交一笔；
　　价格19.99点击97质询量3质询转化率3%。
　　于是41.6元就是我们要使用的价格。
　　第四步是宝贝描述的部分，这是关于你的宝贝是否能够成交的关键。在优化宝贝描述时，还是把上述的10款人气宝贝的网页逐个打开，总结出描述页主要是以下两种编排：

　找三个员工让他们自己阅读宝贝描述网页，三个人的平均阅读时间是3分钟，即平均180秒，这样我们就以180秒的停留时间作为转化来考核宝贝描述网页。测试的结果如下：
　　点击94次180秒以上的停留时间27人旺旺质询19人；
　　点击87次180秒以上的停留时间34人旺旺质询22人。
　　显然第二个数据更能说服买家。为了让描述页编排得更合理，更符合买家的浏览习惯，单独把宝贝描述页2的内容复制了一遍，做成一个独立网页，进行多变量测试。最后可以发现，当模特图片与细节+图片位置互换，质量和细节图片放在左侧文字在右侧时，多变量测试的效果为最佳。
　　通过以上步骤，优化完成后自然流量的点击量增加了30%。这样我们就可以去真正地投放直通车打造我们的爆款了。
　　制定你的数据计划
　　1 专注于相关的数据
　　数据如此庞大，并且还在迅速增加。这让很多企业很难跟上数据的步伐。在一项调查中，31%的受访者“承认他们没有适当的数据管理系统，但他们都不愿意停止收集数据”。
　　需要注意的是，不要陷入数据漩涡之中，企业在开始数据项目时应该采取渐进的易于管理的步骤。首先，应该清楚列明你的数据计划的目标。需要哪些数据，为什么以及谁能够使用这些数据。考虑清楚你试图从这些数据中获取什么类型的情报或者出于什么目的：增强你的竞争力、通过供应链和采购优化来增加销量，或者通过趋势分析和预测分析来增加收入。这也将影响需要的数据。
　　选择需要的数据往往是一个挑战。企业应该从确定几个指标开始，只专注于提供最有价值的数据，这将对未来的数据分析有着重大的影响。
　　2 提升数据整合能力
　　你需要访问各种各样数据的能力，以及实时访问的能力。通过实时整合平台，你可以灵活地定义和更新你需要的数据来源。以及访问你可以通过网站看到的任何数据。你只需要轻松地转换数据、对数据执行操作，并自动产生一个结果。
　　想象这样一个场景：你可以确定买家的习惯和购买模式，并通过增加吸引特定消费群的产品和产品类别来增加销量。或者从博客、论坛和社交媒体评论来预测股价。如果你能够自动访问这些数据来源，并加载到另一个应用程序、数据库或者你选择的其他数据存储，数据计划将会对你的业务增长产生重大的影响。
　　3 付诸行动
　　只有最终付诸了行动，数据才发挥了其价值。不论你的数据集有多么大，关键在于从这些数据中提取情报，然后能够根据提供的情报来采取行动。

发表于 2012-11-24 09:21 柳絮阅读(454) 评论(0) 收藏举报

刷新页面返回顶部

企业数据的秘密(读后笔记)(大数据)

公告