了解大数据的特点、来源与数据呈现方式

 

博客作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2620

1.浏览2019春节各种大数据分析报告,例如:

 

2.分析所采用数据的来源有哪些?

1) 交易数据。包括 POS 机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理 (CRM) 系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

2) 移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据 (如搜索产品的记录事件) 到个人信息资料或状态报告事件 (如地点变更即报告一个新的地理编码) 等。

3) 人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin 等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。

4) 机器和传感器数据。来自感应器、量表和其他设施的数据、定位/ GPS 系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(IoT) 的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为 (如当传感器值表示有问题时进行识别),提供规定的指令 (如警示技术人员在真正出问题之前检查设备)等。

5) 互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。

尽管上面列出了大量的数据源,但要满足具体企业或机构的具体需要,也常常有困难。这种情况在我国更加突出。因为我国政府公开的数据非常有限。比如,即使号称为我国三大数据平台的北京、上海、贵州的政府数据网,公布的数据都非常少,非常粗略,很难被视为大数据。而非政府机构和民间企业,更不会轻易对外公布数据。此外单是获得数据还不够,还需要获得有关资料的很多细节,如对资料的说明,资料的背景,以及其他能帮助分析员理解数据的信息。如果没有这些细节,对数据的正确解读就可能有困难,数据就失去价值。而我国政府提供的很多数据常常缺乏这些细节。

 

3.大数据的呈现方式有哪些?

 主要就是数据可视化图表吧,各种各样的图表,如柱状图、条形图、折线图、饼图这些常见的图表,还有数据地图、词云、漏斗图、桑基图等好看、酷炫的图表。

 

4.大数据的特点是什么?对思维方式有何影响?

 一是大量化:数据量巨大。例如,人类生产的所有印刷材料的数据量仅为200PB。典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

二是多样化:数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。

三是快速化:处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。

四是价值化:价值密度低。以视频为例,一小时的视频,在不间断的测试过程中,可能有用的数据仅仅只有一两秒

 

5.准备python编程环境

下载安装

https://www.python.org/

https://www.jetbrains.com/pycharm/download/#section=windows 

 

基础学习

廖雪峰https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000  

菜鸟教程http://www.runoob.com/python3/python3-tutorial.html 

6.简单的输入输出编程练习

设计完成一个Mad Libs游戏

 

 

 

posted @ 2019-02-26 16:20  Zhms  阅读(220)  评论(0编辑  收藏  举报