随笔分类 - 大数据Kudu
摘要:使用Impala shell 输入impala-shell,即可进入impala-shell环境,impala-shell默认连接localhost:21000 如果要连接一个不同的主机(host) ,请使用使用impala-shell -i 主机名:端口号 如果要退出impala shell,请使
阅读全文
摘要:Lambda架构介绍 https://blog.csdn.net/rav009/article/details/85690985 从业务角度,数据的应用有实效性,常见电子商务。有的数据的应用对实效性要求比较低。比如客户画像分析。 所以lambda架构分为两种解决方法。 第一种是speed layer
阅读全文
摘要:模式设计基础 1.表至少有一个主键。 2.只有主键才会被索引。(考虑查询会使用什么作为条件) 3.不能更新主键。 4.只有主键才能被用来做表分区。 主键和列的设计 设计表模式,最重要的一项是决定你的主键。你只能将主键用作分区模式的一部分,但无法更新它们。 其他列可以通过update和upsert选项
阅读全文
摘要:KUDU开发 使用MapReduce、Spark或Impala,你可以读取Kudu表并将其写入HDFS KUDU API Kudu以结构化、强类型的方式存储数据,因此可以提供KUDU的SQL访问。 目前你可以Spark Sql来访问和操作数据。还可以使用Impala。Impala是Hadoop生态系
阅读全文
摘要:master服务器和tablet服务器 这些服务器是管理表的,而表又是tablet(分区)组成的。(分区)分散在各个tablet服务器上。 通常一个集群包含3个master服务器(为了保证部分服务器故障时,程序仍能提供服务) master服务器上有一个分区,这个分区保存了系统目录表的元数据。还有一个
阅读全文
摘要:行存储 行存储系统是以行的方式组织数据。行存储适合OLTP在线处理系统。 优点:数据写入更快。 不足,随着OLAP系统(在线分析系统)需求增多,数据写入和查询都不是关注点。变成了数据过滤,统计。 行存储举例 列存储 列存储以列的方式存储数据。 优点:有利于统计 不足:需要将每一列存储到对应的位置。
阅读全文
摘要:Kudu介绍 需要实时分析应用场景下,便可能用到Kudu。 2.Kudu提供了更接近于RDBMS的功能和数据模型,提供类似于关系型数据库的存储结构来存储数据,允许用户以和关系型数据库相同的方式插入、更新、删除数据。 3.Kudu仅仅是一个存储层,然而它并不存储数据,而是依赖外部的Hadoop处理引擎
阅读全文