大数据在智慧城市中的应用
摘要:文章首先介绍了大数据和智慧城市的概念、大数据的应用潜力和当前国际上智慧城市的建设概况,然后简要介绍了大数据的四个方面共16种关键技术,最后参考欧盟提出的大数据在智慧城市应用的九个方面,提出了自己在这些应用方面的想法。
关键词:大数据,智慧城市,关键技术,应用
1. 引言
时下最流行的术语要属“大数据”了。在百度指数上,“大数据”一词的搜索次数从2012年以前的每周50次不到,飙升至最高每周9859次,并持续保有热度。顾名思义,大数据的首要特征是其数据量庞大,它的数据量已经从太字节(TB,240)级上升到拍字节(PB,250)级,甚至是泽字节(ZB,270)级。“据统计,如今人们每两天生产的数据量就与人类文明发展至2003年产生的总数据量相当,而迄今为止人类所积累的数据量的90%都来自过去两年。——2015”[1]而在2018的今天,随着科技的进步,数据获取途径更多、数量更大,其中就包括了RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。
智慧城市(smart city)这一概念发端于20世纪80年代的信息城市(information city),经历了20世纪90年代的智能城市(intelligent city)与数字城市(digital city),在2000年后逐步演化为智慧城市。2009年IBM公司首次提出了智慧城市愿景,使得智慧城市理念与实践在全球范围内迅速传播。[1]在百度指数上,“智慧城市”一词的搜索热度随不及“大数据”,但可以明显看出,从2011年以来,搜索量持续上涨并最终稳定在每周2000次左右。智慧城市就是基于数字城市、物联网和云计算建立的现实世界与数字世界的融合,运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,以实现对人和物的感知、控制和智能服务,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。[2][3]
大数据是信息和通信技术领域的概念,而智慧城市的实现依赖于这项技术,因此,研究他们之间的关系,探讨大数据在智慧城市中的应用,对于更好地从民生、环保、公共安全、城市服务等方面促进城市发展,有着至关重要的作用。
1.1 大数据的应用背景
根据国际商业机器公司(IBM)估计的数据来看,现在我们每天生成的数据高达250兆亿个字节,信息的指数型增长有时被人们视为万灵药,就好比20世纪70年代出现的计算机一样。《连线》杂志的前主编克里斯·安德森曾经在2008年的一篇文章中说:“数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。”
被誉为大数据时代的预言家的“维克托-迈尔-舍恩伯格”在2012年出版的《大数据时代》一书中说到:“在大数据时代,我们的思维发生了巨大的变革,我们不再关注事物的因果关系,而更多的关注它们的相关关系。”从哲学的层面来讲,大数据时代发生的思维变革主要影响了人们的“理性认知世界”的过程。人类的理性认知主要包括概念、判断、推理三个过程,概念是人们对一个事物进行总结、概括、抽象后的认知,判断是通过学习对事物进行定义,推理是通过已有判断得出新的判断的过程。在过去,人们进行理性认知的过程往往通过部分样本来进行,也就是说,通过事物的样本来获取整体认知,而在大数据时代,样本即总体,对事物的认知方式也来到了一个新的阶段。
那么这种认知方式有何好处呢?很显然,它具有高效性和准确性。以往,科学家们在一个科学规律发现之前,往往要进行大量的试验和理论论证,而且实验的样本也难以包含全部,只是一种随机的样本,那么这个试验加上推理论证的方法就会耗费大量的时间,而在实际应用时,又会遇到很多的问题。如今,云计算理念下的虚拟化技术大幅提高了人类对数据的处理能力,对海量数据的组织、整理、归纳和学习成为现实,而且由于是对所有的数据进行操作,样本=总体,那么得到的结果也更加准确。同时,由于计算的高效,在获取新的知识后,对已有认知进行更新也将十分迅速。
如今,大数据主要被应用于预测领域。美国最具影响力的预测专家纳特·西尔弗在2013年出版的《信号与噪声》一书中列举了大量涉及不同领域的大数据预测。包括政治选举预测、棒球比赛预测、天气预测、地震预测、经济预测、传染性疾病预测、国际象棋大战、扑克牌游戏、股票市场、温室效应、恐怖主义,几乎涵盖了政治、经济、社会、文化、娱乐等方方面面,由此可以看出,大数据在预测方面具有巨大的潜力。
1.2 大数据在智慧城市中的应用潜力
大数据是智慧城市各个领域都能够实现“智慧化”的关键性支撑技术,智慧城市的建设离不开大数据。建设智慧城市,是城市发展的新范式和新战略。大数据将遍布智慧城市的方方面面,从政府决策与服务,到人们衣食住行的生活方式,再到城市的产业布局和规划,直到城市的运营和管理方式,都将在大数据支撑下走向“智慧化”,大数据成为智慧城市的智慧引擎。[4]
我们在前面说到,智慧城市是基于数字城市、物联网和云计算建立的现实世界与数字世界的融合,以实现对人和物的感知、控制和智能服务。感知是数字城市的功能,控制和智能服务是智慧的高级阶段。
首先在感知方面,随着科技水平的进步,我们可以多渠道、多方式地采集海量数据,从地下、地表到航空、航天,从室外到室内,或者沿着时间轴,贯穿一个时间段地收集数据。
其次是控制和服务方面。正如前面所说,数据量在近两年有了指数级的增长,但这不仅是采集技术进步的功劳。纳特·西弗斯在《信号与噪声中》说:“一旦信息的增长速度过快,而我们处理信息的能力尚且不足,情况就很危险。过去40年的人类历史表明,把信息转变为有用的只是可能还需要很长时间,一不小心,我们就有可能倒退回去。”显然,和大数据一同发展的,还有大数据信息处理技术。我们利用云计算对海量数据进行信息提取,进而利用机器学习的方法,进行预测,就能提供智能服务,也能实现对某些事物的控制。
1.3 智慧城市建设情况[4]
目前,我国正处于城镇化加速发展的时期,部分地区“城市病”问题日益严峻。为解决城市发展难题,实现城市可持续发展,建设智慧城市已成为当今世界城市发展不可逆转的历史潮流。智慧城市的建设在国内外许多地区已经展开,并取得了一系列成果,国内的如智慧上海、智慧双流;国外如新加坡的“智慧国计划”、韩国的“U-City计划”等。
2. 大数据的关键技术[5]
大数据应用于智慧城市建设的关键技术主要有四个方面:大数据采集,大数据预处理、大数据存储及管理、大数据分析及挖掘。下面将简要阐述四个方面共16项技术及其在智慧城市建设中的应用。
2.1 大数据采集
数据采集是大数据生命周期的第一个环节,除了通过RFID射频、传感器等硬件技术获取技术,还可以获取已有数据库数据、社交网络数据、移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作,因此,必须采用专门针对大数据的采集方法,其主要包括以下几种:
2.1.1 无线射频和传感器
传感器是一种获取电信号的技术,分为接触式和非接触式;而无线射频技术是一种非接触式通信技术,可通过无线电讯号识别特定目标并读写相关数据。
2.1.2 数据库采集
从已有的数据库中采集数据。传统的关系型数据库有MySQL和Oracle等。常用的的工具有Sqoop和结构化数据库间的ETL工具,当然当前对于开源的Kettle和Talend本身也包含了大数据集成内容,可以实现和HDFS,HBase和主流NoSQL数据库之间的数据同步和集成。
2.1.3 网络数据采集
网络数据采集主要是借助网络爬虫或网站公开API等方式,从网站上获取数据信息的过程。可以获取网络上非结构化及半结构化数据,并存储。
2.1.4 文件采集
使用Flume实现分布式的海量日志采集、聚合和传输。也可以使用轻量级的ELK(Elasticsearch、Logstash、Kibana三个开源软件的组合)进行日志收集处理。
2.2 大数据预处理
大数据数量巨大,但也会有残缺、虚假、过时的数据。无效的数据不仅没有任何作用,还会影响后续操作,因此数据的预处理就极为重要。大数据预处理就是对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等。主要包括:数据清理、数据集成、数据转换以及数据规约四大部分。
2.2.1 数据清理
数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。主要的清洗工具是ETL(Extraction/Transformation/Loading)和Potter’s Wheel。
2.2.2 数据集成
数据集成是指将多个数据源中的数据合并存放到一个一致的数据存储库中。
2.2.3 数据转换
数据转换包括两类:第一类,数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;第二类,数据仓库中存在源数据库中可能不存在的数据,因此需要进行字段的组合、分割或计算。
2.2.4 数据规约
数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量,主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。
2.3 大数据存储
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,以便管理和调用。大数据存储技术路线最典型的共有三种:
2.3.1 MPP架构的新型数据库集群
MPP(Massively Parallel Processing,大规模并行处理系统)。采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本 PC Server,对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。
2.3.2 基于Hadoop的技术扩展和封装
这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。
2.3.3 大数据一体机
这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。
2.4 大数据分析挖掘
数据的分析与挖掘主要目的是把隐藏在一大批看来杂乱无章的数据中的信息集中起来,进行萃取、提炼,以找出潜在有用的信息和所研究对象的内在规律的过程。包括可视化分析、数据挖掘算法、预测性分析、语义引擎以及数据质量和数据管理五大方面。
2.4.1 可视化分析
数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。目的是做出简单明了、清晰直观,更易于接受的图表。
2.4.2 数据挖掘算法
数据挖掘算法是大数据分析的理论核心,数据挖掘的算法多种多样,不同的算法基于不同的数据类型和格式会呈现出数据所具备的不同特点,致力于深入数据内部,挖掘出数据的价值。
2.4.3 预测性分析
预测性分析结合了多种高级分析功能,包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等。
2.4.4 语义引擎
语义引擎就是给已有的数据(结构化或非结构化)加上语义层。语义技术目的是让用户更快、更准确、更全面地获得所需信息,提高用户的互联网体验。
2.4.5 数据质量管理
数据质量管理是指对数据从生命周期中每个阶段(计划、获取、存储、共享、维护、应用、消亡)可能引发的各类数据质量问题进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
3. 大数据在智慧城市中的应用[6]
首先举出当前大数据在智慧城市中应用的九个方面,然后以此为思路导向,提出自己的想法。
3.1 智慧经济
在商业上,大数据预测可以用于分析用户的购物行为,什么商品搭配在一起会卖得更好,还可以通过分析找到最佳客户。在淘宝平台上,商家可以根据淘宝的数据魔方了解平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此作出经营决策;阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信的企业,从而无需担保来放贷,目前已放贷300多亿元,坏帐率仅0.3%,大大低于商业银行;IBM日本公司建立了一个经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算出采购经理人指数(PMI,用于评估行业兴衰);华尔街对冲基金依据购物网站顾客评论分析企业产品销售状况,华尔街银行根据求职网站岗位数量推断就业率。
企业通过信息收集很好的掌握企业的运营状况,分析居民与财务有关的记录包括贷款申请、租赁、房地产、购买零售商品、纳税申报、水电费缴付、有线电视缴费、电话缴费、报纸与杂志订阅、机动车档案等,能够得出消费者的个人信用评分,从而推断客户支付意向与支付能力,发现潜在的商机和欺诈行为。
利用大数据分析可实现对合理库存量的管理;利用心情分析方法可以分析用户在购物时的心情,从而为其安排更好的购物方案;通过分析顾客在购买商品时的关联性,超市经营者可以做出更好的商品布局。
3.2 智慧治理
美国纽约的警察分析交通拥堵与犯罪发生地点的关系,有效改进治安;美国纽约的交通部门从交通违规和事故的统计数据中发现规律,改进了道路设计;电信运营商拥有大量的手机数据,通过对手机数据的挖掘,不针对个人而是着眼于群体行为,可从中分析:实时动态的流动人口的来源及分布情况、出行和实时交通客流信息及拥塞情况;利用手机用户身份和位置的检测可了解突发性事件的聚集情况;MIT的Reality Mining项目,通过对10万多人手机的通话、短信和空间位置等信息进行处理,提取人们行为的时空规则性和重复性,进行流行病预警和犯罪预测;利用短信、微博、微信和搜索引擎可以收集热点事件与舆情挖掘;
3.3 环境监测
通过卫星、无人机、地面无人车等遥感平台采集空间数据。对森林和植被、湖泊、河流、土地进行数据采集监测和分析,能够判别城市中有没有污染。
3.4 智慧医疗
智慧医疗主要体现在医疗模式的开发。首先是居家监护,收集中老年人或婴幼儿很长时间(数年甚至数十年)的健康数据,进行分析预测,可以从一定程度上避免意外状况的发生;其次是医疗网络监控,根据网民搜索内容分析全球范围内流感等病疫传播状况;另外还有个性化医疗,有研究表明,同样的治疗对一些病人无效,75%癌症病人,70%的老年痴呆者、50%的关节炎病人、43%的糖尿病患者、40%的哮喘病患者,38%的抑郁症病人,因为人体对药品代谢方式的差异取决于个体特定的基因、酶和蛋白质组合,因此基因信息对选择最优治疗非常关键。对人体个性体质的挖掘会做到真正意义上的对症下药,一个人的基因信息大概1GB;最后,参考舆情监督,可以通过社交网络获取许多患者分享的临床症状和经验,增加医院在这些方面的临床统计资料。
3.5 智能搜索
如今,搜索引擎不再局限于基于文本字符串的匹配搜索,出现了基于图片的搜索、基于语音的搜索、基于位置的搜索。例如百度搜索,图片搜索和文字搜索已经达到了非常高的精度,而百度旗下的百度地图,在语音搜索和基于位置的搜索也做的相当令人满意。
在搜索形式上,除了现有的几种搜索,还可以借助传感器和机器学习,利用大数据分析方法,进行基于气味的搜索、基于视频信息的搜索等。
在搜索内容上,智能搜索的理念被用于理解用户的语义,分析用户在进行搜索过程时的心情和状态,据此提供用户真正感兴趣的内容。
3.6 舆情监测
随着大众传播的发展以及新型传播的发展,传播领域将产生大量数据。互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,例如微博传播具有裂变性、主动性、即时性、便捷性、交互性、草根性,跟进性和临场感,每一个微博用户既是”服务器”,也是”受众”。
通过互联网进行舆情监测,主要可以应用于政府决策、商品销售、产品研发等方面。政府通过舆情监测,及时发现存在的负面舆情,进行引导和调控,稳定社会;公司企业通过舆情监测,分析用户需求和需求分布,控制主流和非主流商品的销售状况;科研机构或大学通过舆情监测,获取社会对科研产品的需求情况,确定研发方向和研究课题。
3.7 精准营销
精准营销有两个方面的内容,一是根据顾客需求,在合适的时间,通过合适渠道,把合适的营销信息投送给每个顾客;二是通过分析顾客行为,进行商品的预备。
第一方面的内容现在许多大公司如今日头条、百度、阿里巴巴都已经做得十分完善,其他的公司也能做得媲美这些大公司。对于第二方面商品预备物资分配的问题仍有更多的开发空间,以身边的商家为例,首先是外卖行业,现在存在送货慢、备餐久等问题,商家可以通过分析点餐者的点餐时段、菜品偏好,提前准备好餐品,并和外送公司达成沟通,提高送餐效率;其次是零售超市,目前存在的问题是,超市和顾客供需不对等,商品月均销量起伏等,这影响了超市的经营和顾客的体验。超市可以通过分析需求,在需求剧烈的时段增加商品供应,或者可以在销售淡季进行回馈活动来增长销量等。
3.8 犯罪预警
可以通过监测通话、聊天等信息获取可能存在的犯罪。不过这个在中国基本上不能实现。能实现的只有在公共电话、视频监控中进行监测,例如监测视频中的不正常行为,电话中语音内容的识别,但中国人口众多,视频和语音数据量巨大,实现难度相当高。
3.9 市场价格监测
通过分析,可以发现正常的价格变化规律,如果价格变化持续异常,就可以怀疑存在价格垄断的行为。市场价格监测可以为政府进行宏观调控提供参考依据
4. 总结
埃里克·西格尔在《大数据预测》一书中说到:“大数据时代下的核心——预测分析已经在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。”诚如西格尔所言,当大数据与智慧城市完美契合,将是对传统城市模式的一种极大的颠覆。过去人们在城市里生活,思考如何去迎合这个冰冷的钢铁森林,而在智慧城市的服务之下,仿佛一切有了温度,人们在城市的每个角落都能感受到她的温情。智慧城市的理念和技术将成为实现服务型城市的关键。
参考文献
[1] 刘伦.大数据时代的智慧城市规划:国际经验[J].国际城市规划,2015,(9)
[2] 百度百科
[3] 易事特公司.大数据在智慧城市中的应用,2016,(11)
[4] 阿里云
[5] 51CTO大数据
[6] 大数据在智慧城市的10大应用