上一页 1 2 3 4 5 6 ··· 29 下一页
摘要: 1、hive取得当前日期时间:1.1) 取得当前日期:select current_date();1.2) 取得当前日期时间:select current_timestamp();1.3) hive取得当前时间戳:select unix_timestamp();1.4) 时间戳转日期:select from_unixtime(1517725479,'yyyy-MM-dd HH:dd:ss');1.... 阅读全文
posted @ 2018-03-05 18:17 ChavinKing 阅读(17069) 评论(0) 推荐(0) 编辑
摘要: 1、触发器方式 触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求,在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个增量日志表,ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数据,同时增量日志表中抽取过的数据要及时被标记或删除。为了简单起见,增量日志表一般不存储增量数据的所有字段信息,而只是存储源表名称、更新的关键... 阅读全文
posted @ 2018-03-05 11:01 ChavinKing 阅读(4758) 评论(0) 推荐(0) 编辑
摘要: 一、数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。l 面向主题:传统的数据库是面向事务处理的,而数据仓库是面向某一领域而组织的数据集合,主题是指用户关心的某一联系紧密的集合。l 集成:数据仓库中数据来源于各个离散的业务系统数据库、外部数据、非结构化数据的集合,数据仓库数据是集成的。l 相对稳定:数据仓库中的数据不应该支持dml操作,而是通过批处理方... 阅读全文
posted @ 2018-03-05 01:43 ChavinKing 阅读(15636) 评论(1) 推荐(0) 编辑
摘要: 一、规划1、服务器:192.168.0.191 gpdb01 # master 192.168.0.192 gpdb02 # primary segment 、 mirror segment192.168.0.193 gpdb03 # primary segment 、 mirror segment192.168.0.194 gpdb04 ... 阅读全文
posted @ 2018-03-02 21:29 ChavinKing 阅读(933) 评论(0) 推荐(0) 编辑
摘要: 1、测试数据: SQL> select * from dept; DEPTNO DNAME LOC 10 ACCOUNTING NEW YORK 20 RESEARCH DALLAS 30 SALES CHICAGO 40 OPERATIONS BOSTON SQL> select * from e 阅读全文
posted @ 2018-03-01 00:58 ChavinKing 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 1、下载mysql镜像# docker pull mysql2、启动mysql容器# docker run -itd -v /data:/var/lib/mysql -p 33060:3306 --name mysqldb mysql bashWARNING: IPv4 forwarding is disabled. Networking will not work.25d047a99917c64... 阅读全文
posted @ 2018-02-22 17:38 ChavinKing 阅读(1769) 评论(0) 推荐(0) 编辑
摘要: 1、volume操作命名:docker volume Usage: docker volume COMMANDManage Docker volumesOptions: --help Print usageCommands: create Create a volume inspect Display detailed information on ... 阅读全文
posted @ 2018-02-22 17:37 ChavinKing 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 1、docker searchUsage: docker search [OPTIONS] TERMSearch the Docker Hub for images(从docker仓库查询镜像信息)2、docker pullUsage: docker pull [OPTIONS] NAME[:TAG|@DIGEST]Pull an image or a repository from ... 阅读全文
posted @ 2018-02-22 17:36 ChavinKing 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 随着技术的发展,目前数据库系统对于海量数据的存储和高效访问海量数据要求越来越高,MongoDB分片机制就是为了解决海量数据的存储和高效海量数据访问而生。 MongoDB分片集群由mongos路由进程(轻量级且非持久化进程)、复制集组成的片shards(分片一般基于复制集故障转移和冗余备份功能)、一组 阅读全文
posted @ 2017-12-19 01:32 ChavinKing 阅读(7032) 评论(0) 推荐(1) 编辑
摘要: 一、MongoDB复制集概述 MongoDB复制集实现了冗余备份和故障转移两大功能,这样能保证数据库的高可用性。在生产环境,复制集至少包括三个节点,其中一个必须为主节点,一个从节点,一个仲裁节点。其中每一个节点都是mongod进程对应的实例,节点间通过心跳检查对方的状态。 primary节点:负责数 阅读全文
posted @ 2017-12-17 23:21 ChavinKing 阅读(2789) 评论(0) 推荐(0) 编辑
摘要: 一、基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个或多个节点组织在一起,它们共... 阅读全文
posted @ 2017-12-10 21:46 ChavinKing 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装sparktar -zxvf spark-1.6.0-bin-hadoop2-without-hive.t... 阅读全文
posted @ 2017-12-03 19:03 ChavinKing 阅读(980) 评论(0) 推荐(0) 编辑
摘要: 简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点· Spark可以部署在YARN上· Spark原生支持对HDFS文件系统的访问... 阅读全文
posted @ 2017-11-26 17:11 ChavinKing 阅读(20619) 评论(0) 推荐(1) 编辑
摘要: 1、安装hadoop集群参考:http://www.cnblogs.com/wcwen1990/p/6739151.html2、安装hive参考:http://www.cnblogs.com/wcwen1990/p/6757240.html3、安装配置spark编译spark:http://www.cnblogs.com/wcwen1990/p/7688027.html部署参考:http://ww... 阅读全文
posted @ 2017-11-26 16:58 ChavinKing 阅读(2216) 评论(0) 推荐(0) 编辑
摘要: Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Spark streaming集成kafka是企业应用中最为常见的一种场景。一、安装kafka参考文档:http://kafka.ap... 阅读全文
posted @ 2017-11-26 15:51 ChavinKing 阅读(572) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 29 下一页
点击右上角即可分享
微信分享提示