1、半结构化数据定义
结构化数据:传统数据库中定义的数据,商业的交易数据等都是拥有固定的数据结构。
非结构化数据:另一个极端,对于图片、声音和生文本(指未经计算机处理的预料),这些数据完全没有固定结构,故被称为非结构化数据。
半结构化数据(semi-structured data):处于两个极端之间,结构隐含在数据中的,或者模式繁多且经常变化以至于会忽略的数据称为半结构化数据。
2、半结构化数据特征
(1)数据结构自描述性。结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)。
(2)数据结构描述的复杂性。结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。
(3)数据结构描述的动态性。数据变化通常会导致结构模式变化,整体上具有动态的结构模式。
3、半结构化数据模型
结构化数据模型:E-R模型、关系模型和对象模型
半结构化数据模型:
- OEM(Object exchange Model),对象交换模型
- OIM(Object Integration Model),对象融合模型【找不到!】
+ Integrated Object Model(IOM),集成对象模型【好像不是一个东西】
+ https://support.sas.com/rnd/itech/doc/dist-obj/iom.html - MFRO(Minimal Full Representation Objects),最小完整表示对象【找不到?】
在数据库方法中,半结构化数据的表示一般用OEM(Object Exchange Model)[4]模型.也可用OIM(Object Integration Model)模型[4,5,6],
用MFRO(Minimal Full Representation Objects)[7,8]方法实现其模式抽取。OIM是OEM的一种变形数据模型。数据库方法的应用集中在模式发现、多层数据库的建立或数据向导(Data Guides)的建立以及web查询系统。
参考:[1]陈修宽,董祥军,石芙芙.Web数据挖掘综述[J].山东轻工业学院学报(自然科学版),2009,23(03):25-28.
数据模型:
- 结构化数据:二维表(关系型)
- 半结构化数据:树、图
- 非结构化数据:无
结构化数据:先有结构、再有数据
半结构化数据:先有数据,再有结构
4、半结构化数据有哪些
数据类型:OWL,XML(SGML),HTML,JSON,RDF
常用的数据交换格式:XML和JSON
XML,扩展标记语言,是标准通用标记语言SGML的子集。起初的设计目标是通用数据标记和呈现文档格式。XML文档的内容的语义部分不证自明蕴于其结构之中。XML设计的基础部分考虑了简单性和用户可读性。W3C指出XML应用于互联网中并且易读易理解。XML在起初是用于远程过程调用(RPC)和对象序列化中。
XML创建了用户定义的文档标记和编码模式。
但是XML没有预先定义标记集,也就是说要么用户自己定义,要么通过其他的模式来自动生成。
//一个XML文档的例子:a person named'John Simth
<name>
<first>John</first>
<second>Simth</second>
</name>
JSON开始被设计为用户可读且电脑易于解析和使用。JSON是在JavaScript脚本语言中直接支持,因而非常适用于JavaScript应用,且性能明显超过XML,因为后者校额外的类库从文档对象模型DOM中解析对象。与XML相比,JSON在命名空间的支持、输入验证支持和扩展性支持方面有所缺陷,但是解析速度却会超过XML文档百倍。
//一个JSON文档的例子:a person named'John Simth'
{
"6rstname":John"
"secondname":"Smith"
}
主要有三方面:
(1)在lnternet等对存储数据无严格模式限制的情形下,常见的有HTML、XML(SGML)和JSON文件等;
(2)在电子邮件、电子商务、文献检索和病历处理中,存在着大量结构和内容均不固定的数据;
(3)异构信息源集成情形下,由于信息源上的互操作要存取的信息源范围很广,包括各类数据库、知识库、电子图书和文件系统等。
具体例子
政府开放数据各个源:数据模式不确定,多属于半结构化数据范畴;
员工的简历:字段不确定。
有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更;
通信信号循环谱:
参考:[1]刘东威.面向JSON半结构化文档的聚类技术研究[D].东南大学,2017.【2.1】
作者:西伯尔
出处:http://www.cnblogs.com/sybil-hxl/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。