08 2019 档案

摘要:Gpexpand是Greenplum数据库的扩容工具,可以为集群增加新节点从而可以存储更多的数据,提供更高的计算能力。Greenplum 5及之前,集群扩容需要停机增加新节点,然后对表数据做重分布。因为集群大小已经改变,所以重分布之前要先将所有哈希分布表改成随机分布,然后再按照新的集群大小重新计算哈 阅读全文
posted @ 2019-08-30 16:16 纯捡垃圾吃的 阅读(2371) 评论(1) 推荐(1) 编辑
摘要:Greenplum 是最出色的开源MPP数据库,经过15年的发展,从数据仓库发展成了云时代的理想大数据平台。 本系列文章将从各个方面介绍Greenplum对云的支持。本篇侧重多租户。 1. 什么是多租户 多租户指一套系统能够支撑多个租户。一个租户通常是具有相似访问模式和权限的一组用户,典型的租户是同 阅读全文
posted @ 2019-08-30 11:25 纯捡垃圾吃的 阅读(1636) 评论(0) 推荐(0) 编辑
摘要:Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。 注意:从Spark 2.3.0开始,不推荐使用Kafka 0.8支持 阅读全文
posted @ 2019-08-26 11:46 纯捡垃圾吃的 阅读(298) 评论(0) 推荐(0) 编辑
摘要:一、登录Cloudera Manager (http://192.168.201.128:7180/cmf/login)时,无法访问web页面 针对此问题网上有较多的解决方案(e.g. https://www.cnblogs.com/zlslch/p/7078119.html), 如果还不能解决你的 阅读全文
posted @ 2019-08-23 08:59 纯捡垃圾吃的 阅读(1212) 评论(0) 推荐(0) 编辑
摘要:1、通过管理平台分别停止组件服务和Cloudera Management Service 2、通过管理平台注销并移除Parcles (在控制台注销并移除,无论是安装的Parcles还是未安装的Parcles) 3、停止后台服务 sudo service cloudera-scm-agent stop 阅读全文
posted @ 2019-08-23 08:46 纯捡垃圾吃的 阅读(351) 评论(0) 推荐(0) 编辑
摘要:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 hive的元数据存储:通常是存储在关系数据库如 mysql(推荐) , derby(内嵌数据库)中 hive的组成部分 :解释器、编译器、优化器、执行器 hive具有sql数据库的外表,但 阅读全文
posted @ 2019-08-22 17:34 纯捡垃圾吃的 阅读(13869) 评论(0) 推荐(0) 编辑
摘要://s函数的应用val name="Tom" s"Hello,$name" //Hello,Tom s"1+1=${1+1}" //1+1=2 阅读全文
posted @ 2019-08-19 11:27 纯捡垃圾吃的 阅读(1638) 评论(0) 推荐(0) 编辑
摘要:官网文档中,大概可分为这几个 TransformationsWindow OperationsJoin OperationsOutput Operations 请了解一些基本信息: DStream是Spark Streaming提供的基本抽象。它表示连续的数据流,可以是从源接收的输入数据流,也可以是 阅读全文
posted @ 2019-08-19 11:08 纯捡垃圾吃的 阅读(1537) 评论(0) 推荐(0) 编辑
摘要:比如我的内存中存在如下的以key-value形式的数据集(RDD): 比如我的内存中存在如下的以key-value形式的数据集(RDD): 比如我的内存中存在如下的以key-value形式的数据集(RDD): 比如我的内存中存在如下的以key-value形式的数据集(RDD): hello:1 sp 阅读全文
posted @ 2019-08-19 10:30 纯捡垃圾吃的 阅读(14403) 评论(0) 推荐(2) 编辑

返回顶部
点击右上角即可分享
微信分享提示