随笔分类 - 大数据Kudu

Kudu建表操作

摘要：使用Impala shell 输入impala-shell，即可进入impala-shell环境，impala-shell默认连接localhost:21000 如果要连接一个不同的主机(host) ，请使用使用impala-shell -i 主机名:端口号如果要退出impala shell，请使阅读全文

posted @ 2020-10-12 15:57 猫七的blog 阅读(203) 评论(0) 推荐(0) 编辑

Kudu实时分析举例

摘要：Lambda架构介绍 https://blog.csdn.net/rav009/article/details/85690985 从业务角度，数据的应用有实效性，常见电子商务。有的数据的应用对实效性要求比较低。比如客户画像分析。所以lambda架构分为两种解决方法。第一种是speed layer 阅读全文

posted @ 2020-09-29 14:59 猫七的blog 阅读(435) 评论(0) 推荐(0) 编辑

Kudu的模式设计

摘要：模式设计基础 1.表至少有一个主键。 2.只有主键才会被索引。(考虑查询会使用什么作为条件) 3.不能更新主键。 4.只有主键才能被用来做表分区。主键和列的设计设计表模式，最重要的一项是决定你的主键。你只能将主键用作分区模式的一部分，但无法更新它们。其他列可以通过update和upsert选项阅读全文

posted @ 2020-09-25 17:11 猫七的blog 阅读(10) 评论(0) 推荐(0) 编辑

KUDU开发

摘要：KUDU开发使用MapReduce、Spark或Impala，你可以读取Kudu表并将其写入HDFS KUDU API Kudu以结构化、强类型的方式存储数据，因此可以提供KUDU的SQL访问。目前你可以Spark Sql来访问和操作数据。还可以使用Impala。Impala是Hadoop生态系阅读全文

posted @ 2020-09-25 09:49 猫七的blog 阅读(6) 评论(0) 推荐(0) 编辑

管理KUDU

摘要：master服务器和tablet服务器这些服务器是管理表的，而表又是tablet（分区）组成的。（分区）分散在各个tablet服务器上。通常一个集群包含3个master服务器（为了保证部分服务器故障时，程序仍能提供服务） master服务器上有一个分区，这个分区保存了系统目录表的元数据。还有一个阅读全文

posted @ 2020-09-24 23:55 猫七的blog 阅读(164) 评论(0) 推荐(0) 编辑

列存储与行存储

摘要：行存储行存储系统是以行的方式组织数据。行存储适合OLTP在线处理系统。优点：数据写入更快。不足，随着OLAP系统（在线分析系统）需求增多，数据写入和查询都不是关注点。变成了数据过滤，统计。行存储举例列存储列存储以列的方式存储数据。优点：有利于统计不足：需要将每一列存储到对应的位置。阅读全文

posted @ 2020-09-24 15:17 猫七的blog 阅读(428) 评论(0) 推荐(0) 编辑

Kudu简介

摘要：Kudu介绍需要实时分析应用场景下，便可能用到Kudu。 2.Kudu提供了更接近于RDBMS的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。 3.Kudu仅仅是一个存储层，然而它并不存储数据，而是依赖外部的Hadoop处理引擎阅读全文

posted @ 2020-09-24 14:11 猫七的blog 阅读(2849) 评论(0) 推荐(1) 编辑