08 2019 档案
摘要:Gpexpand是Greenplum数据库的扩容工具,可以为集群增加新节点从而可以存储更多的数据,提供更高的计算能力。Greenplum 5及之前,集群扩容需要停机增加新节点,然后对表数据做重分布。因为集群大小已经改变,所以重分布之前要先将所有哈希分布表改成随机分布,然后再按照新的集群大小重新计算哈
阅读全文
摘要:Greenplum 是最出色的开源MPP数据库,经过15年的发展,从数据仓库发展成了云时代的理想大数据平台。 本系列文章将从各个方面介绍Greenplum对云的支持。本篇侧重多租户。 1. 什么是多租户 多租户指一套系统能够支撑多个租户。一个租户通常是具有相似访问模式和权限的一组用户,典型的租户是同
阅读全文
摘要:Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。 注意:从Spark 2.3.0开始,不推荐使用Kafka 0.8支持
阅读全文
摘要:一、登录Cloudera Manager (http://192.168.201.128:7180/cmf/login)时,无法访问web页面 针对此问题网上有较多的解决方案(e.g. https://www.cnblogs.com/zlslch/p/7078119.html), 如果还不能解决你的
阅读全文
摘要:1、通过管理平台分别停止组件服务和Cloudera Management Service 2、通过管理平台注销并移除Parcles (在控制台注销并移除,无论是安装的Parcles还是未安装的Parcles) 3、停止后台服务 sudo service cloudera-scm-agent stop
阅读全文
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 hive的元数据存储:通常是存储在关系数据库如 mysql(推荐) , derby(内嵌数据库)中 hive的组成部分 :解释器、编译器、优化器、执行器 hive具有sql数据库的外表,但
阅读全文
摘要://s函数的应用val name="Tom" s"Hello,$name" //Hello,Tom s"1+1=${1+1}" //1+1=2
阅读全文
摘要:官网文档中,大概可分为这几个 TransformationsWindow OperationsJoin OperationsOutput Operations 请了解一些基本信息: DStream是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是
阅读全文
摘要:比如我的内存中存在如下的以key-value形式的数据集(RDD): 比如我的内存中存在如下的以key-value形式的数据集(RDD): 比如我的内存中存在如下的以key-value形式的数据集(RDD): 比如我的内存中存在如下的以key-value形式的数据集(RDD): hello:1 sp
阅读全文