2018 年 1月 2 日随笔档案 - niutao

2018年1月2日

摘要：可以选择使用Spark SQL直接使用INSERT语句写入Kudu表；与'append'类似，INSERT语句实际上将默认使用UPSERT语义处理；阅读全文

posted @ 2018-01-02 21:49 niutao 阅读(4277) 评论(0) 推荐(0) 编辑

摘要：在通过DataFrame API编写时，目前只支持一种模式“append”。尚未实现的“覆盖”模式阅读全文

posted @ 2018-01-02 21:47 niutao 阅读(793) 评论(0) 推荐(0) 编辑

摘要：虽然我们可以通过上面显示的KuduContext执行大量操作，但我们还可以直接从默认数据源本身调用读/写API。要设置读取，我们需要为Kudu表指定选项，命名我们要读取的表以及为表提供服务的Kudu集群的Kudu主服务器列表。阅读全文

posted @ 2018-01-02 21:46 niutao 阅读(792) 评论(0) 推荐(0) 编辑

spark操作kudu之DML操作

摘要： Kudu支持许多DML类型的操作，其中一些操作包含在Spark on Kudu集成包括： INSERT - 将DataFrame的行插入Kudu表。请注意，虽然API完全支持INSERT，但不鼓励在Spark中使用它。使用INSERT是有风险的，因为Spark任务可能需要重新执行，这意味着可能要求阅读全文

posted @ 2018-01-02 21:44 niutao 阅读(2164) 评论(0) 推荐(0) 编辑

DataFrames和Kudu

摘要： Kudu为Kudu表提供了一个自定义的原生数据源。可以和DataFrame API紧密集成；使用DataFrame的好处就是可以从很多的数据源创建dataframe，包括现有的RDD，Hive表或Spark数据语法格式：阅读全文

posted @ 2018-01-02 21:41 niutao 阅读(641) 评论(0) 推荐(0) 编辑

使用spark集成kudu做DDL

摘要： spark对kudu表的创建定义kudu的表需要分成5个步骤： 1：提供表名 2：提供schema 3：提供主键 4：定义重要选项；例如：定义分区的schema 5：调用create Table api 定义表时要注意的一个项目是Kudu表选项值。您会注意到在指定组成范围分区列的列名列表时我们调用阅读全文

posted @ 2018-01-02 21:39 niutao 阅读(1811) 评论(0) 推荐(1) 编辑

使用spark操作kudu

摘要： Spark与KUDU集成支持： DDL操作（创建/删除）本地Kudu RDD Native Kudu数据源，用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert /删除谓词下推 Kudu和Spark SQL之间的模式映射到目前为止，我们已经听说过几个上下文，阅读全文

posted @ 2018-01-02 21:37 niutao 阅读(4523) 评论(0) 推荐(0) 编辑

kudu的分区方式

摘要：为了提供可扩展性，Kudu 表被划分为称为 tablets 的单元，并分布在许多 tablet servers 上。行总是属于单个 tablet 。将行分配给 tablet 的方法由在表创建期间设置的表的分区决定。 kudu提供了3种分区方式: Range Partitioning ( 范围分区 ) 阅读全文

posted @ 2018-01-02 21:33 niutao 阅读(10798) 评论(0) 推荐(0) 编辑

使用java操作kudu

摘要：使用maven导入kudu 使用java创建Kudu表 public class CreateTable { private static ColumnSchema newColumn(String name, Type type, boolean iskey) { ColumnSchema.Col 阅读全文

posted @ 2018-01-02 21:28 niutao 阅读(2834) 评论(0) 推荐(0) 编辑