随笔分类 -  大数据时代

摘要:<b <font size=4 数据结构化问题</font </b 首先要提到的是两者存储数据属性上的区别,虽然两者都是以key/value形式进行存储,但Dynamo偏向存储原数据,因为其所存储的数据是非结构化数据,对value的解析完全是用户程序的事情,Dynamo系统不识别任何结构数据,都统一... 阅读全文
posted @ 2015-11-23 12:09 Dus 阅读(747) 评论(0) 推荐(0) 编辑
摘要:1. 什么是元数据 任何文件系统中的数据分为数据和元数据。数据是指普通文件中的实际数据,而元数据指用来描述一个文件的特征的系统数据,诸如访问权限、文件拥有者以及文件数据块的分布信息(inode...)等等。在集群文件系统中,分布信息包括文件在磁盘上的位置以及磁盘在集群中的位置。用户需... 阅读全文
posted @ 2015-11-15 20:58 Dus 阅读(15928) 评论(0) 推荐(0) 编辑
摘要:B树即二叉搜索树: 1.所有非叶子结点至多拥有两个儿子(Left和Right); 2.所有结点存储一个关键字; 3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树; 如: B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等... 阅读全文
posted @ 2015-11-02 20:48 Dus 阅读(224) 评论(0) 推荐(0) 编辑
摘要:1. 引言 哈希表(Hash Table)的应用近两年才在NOI中出现,作为一种高效的数据结构,它正在竞赛中发挥着越来越重要的作用。 哈希表最大的优点,就是把数据的存储和查找消耗的时间大大降低,几乎可以看 成是常数时间;而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越 ... 阅读全文
posted @ 2015-11-02 20:15 Dus 阅读(266) 评论(0) 推荐(0) 编辑
摘要:ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载... 阅读全文
posted @ 2015-07-17 15:11 Dus 阅读(7256) 评论(0) 推荐(0) 编辑