什么是非结构化数据(unstructured data)?
什么是非结构化数据(unstructured data)?
随着AI和5G时代的到来,我们对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的需求,而伴随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被广泛利用。然而真正能够使用并且管理非结构化数据是现在人工智能领域的一大问题。
据 IDC 预测,2018 年到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率达到 27%,其中超过 80% 的数据都会是处理难度较大的非结构化数据。预计到 2030年全球数据总量将达到 3,5000EB。
随着新兴技术的快速发展,全球各大科技公司也提高了行业对非结构化数据的重视程度。物联网、工业4.0、ADAS、自动驾驶和视频直播等领域的发展所产生的,就是非结构化数据。而例如人工智能、机器学习、语义分析、图像识别等技术则需要大量的非结构化数据来开展工作。
由于非结构化数据的信息量和信息的重要程度很难被界定,如何对其进行有效的管理,是一个棘手的问题。
和结构化数据相比,非结构化的数据最本质的区别包括三个方面:
(Fig 1: “结构化数据”,“半结构化数据”和“非结构化数据”)
1. 非结构化数据的容量比结构化数据更大;
2. 产生的速度比结构化数据更快;
3. 数据来源更具有多样性。
从形态上,非结构化数据主要包含三大块:
1. 文本文字;
2. 图像、图片等;
3. 视频流、电视流。
非结构化数据带来的挑战:
一、扩容难、成本高
随着数据的高速增长,传统存储 Scale-Up 的扩展方式,会造成“小马拉大车”的困境,性能与容量无法灵活扩展。同时,传统存储的扩容成本较高,随着大量的非结构化数据占用存储空间,扩容的需求将造成投资成本不断攀升。
二、数据体量大、获取和流转困难
对于已经保留下来的非结构化数据,真要去使用和处理它,依然是一项不讨好的“体力活儿”。由于体量、距离和网速的原因,非结构化数据并不容易获得,更不要说被灵活地放入业务分析和处理流程之中了。
三、缺乏处理分析的技术手段
非结构化数据的价值密度相对较低,缺乏有效的技术对非结构化数据进行处理和分析,面对海量文件数据束手无策。
如何更好地去掌控非结构化数据
传统的数据分析方法和工具难以从非结构化数据中获取到信息。数据科学家可以结合NoSQL数据库对非结构化数据进行人工解析。但是这样无疑为数据科学家增加了大量的工作。当前无论是AWS、Azure还是阿里云,对于非结构化处理主要提供基础设施,并没有针对数据本身提供解决方案,不同的行业数据应该如何组织、如何训练、如何形成行业知识库。而市场上很多数据公司,则专注于某个领域的数据,如公安、电商、咨询等行业,提供行业性的解决方案,并且取得了可观的成果。为了更高效地让所有人了解并赋能非结构化数据,新兴人工智能产业如格物钛Graviti便着手构建非结构化数据管理平台。让一些暂时不能被处理的“无效数据”赋之以价值和能量,了解并有效地管理数据是第一步。
随着AI和5G时代的到来,我们对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的需求,而伴随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被广泛利用。