Coursera, Big Data 2, Modeling and Management Systems (week 1/2/3)
Introduction to data management
整个coures 2 是讲data management and storage 的,主要内容就是分布式文件系统,HDFS, Redis 等
What is data management?
Introduction to data model
什么是data model?
三个aspects - Structure, Operations, Constrants
四个基本 data operation - selection(filtering, 选满足条件的row or index), projection(选一部分field or column), union(求并集), join(见下图)
Constraints
types of contraints:
Differenet kinds of data models
relational data model - DB
simi-structured data model : xml, json 等树结构
vector space model: 从text 和image 取数据. 除了讲vector model 还讲到了 similarity search
TF - term frequency, term 出现的次数,是个绝对值
IDF - inversed document frequency : log2(文档数n / term出现的次数 count), 比如下面出现的 单词new 的 IDF 是 log2(3/2)
DF - 和 IDF 相反,就是 log2(term出现的次数 / count文档数n)
tf-idf matrix 就是把 tf 和 idf 值 相乘得到的
Graph data model
Graph data model 经常用来解决下面的问题