了解大数据的特点、来源与数据呈现方式
一、大数据中采用数据的来源
分析所采用的数据来源一般有1.交易数据 2. 移动通信数据 3. 人为数据 4. 机器和传感器数据 5. 互联网上的“开放数据”来源 等。
(1)交易来源:包括 POS 机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理 (CRM) 系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。
(2)移动通信数据:移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据 (如搜索产品的记录事件) 到个人信息资料或状态报告事件 (如地点变更即报告一个新的地理编码) 等。
(3)人为数据:人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin 等社交媒体产生的数据流。
(4)机器和传感器数据:来自感应器、量表和其他设施的数据、定位/ GPS 系统数据等。
(5)互联网上的“开放数据”来源:如政府机构,非营利组织和企业免费提供的数据。
二、大数据的呈现方式:
1、面积&尺寸可视化对同一类图形(例如柱状、圆环和蜘蛛图等)的长度、高度或面积加以区别,来清晰的表达不同指标对应的指标值之间的对比。
2、颜色可视化
3、图形可视化在我们设计指标及数据时,使用有对应实际含义的图形来结合呈现,会使数据图表更加生动的被展现,更便于用户理解图表要表达的主题。
4、地域空间可视化当指标数据要表达的主题跟地域有关联时,我们一般会选择用地图为大背景。
5、概念可视化通过将抽象的指标数据转换成我们熟悉的容易感知的数据时,用户便更容易理解图形要表达的意义。
三、大数据的特点是什么?对思维方式有何影响?
大数据有以下四点:
一是数据量巨大。例如,人类生产的所有印刷材料的数据量仅为200PB。典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
三是处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。
四是价值密度低。以视频为例,一小时的视频,在不间断的测试过程中,可能有用的数据仅仅只有一两秒。
影响如下:
1)人们处理的数据从样本数据变成全部数据;
2)由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;
3)人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。
事实上,大数据时代带给人们的思维方式的深刻转变远不止上述三个方面。本人认为,大数据思维最关键的转变在于从自然思维转向智能思维,使得大数据像具有生命力一样,获得类似于“人脑”的智能,甚至智慧
四、设计完成一个Mad Libs游戏
代码如下:
name1 = input('请输入一个人名:')
place1 = input('请输入一个地点:')
term1 = input('请输入一个名词:')
name2 = input('请输入一个名字:')
verb1 = input('请输入一个动词,如:拍:')
term2 = input('请输入一个名词:')
term3 = input('请输入一个名词:')
verb2 = input('请输入一个动词,如:拍:')
print('{}今天在{}里{}{}可他发现他没带{}所以向{}借了{},可他发现{}在{}{},所以{}只能向{}借{}'.format(name1, place1, verb2,term1,term1,name2,term1,name2,verb1,term2,name1,term3,term1))
运行截图如下: