随笔分类 -  Flink与实时数仓

摘要:更新:截止到cstore_fdw 1.7.0,官方表示已经合并到citus columnar storage,并且已经不再更新。所以用户可以考虑使用citus列式存储。或者lightdb enterprise postgres,获得更加体验。 据介绍,cstore_fdw实现了 PostgreSQL 阅读全文
posted @ 2019-10-02 19:06 zhjh256 阅读(1697) 评论(0) 推荐(0) 编辑
摘要:四个最主要的配置文件(原生版本位于$HADOOP_HOME\etc\hadoop目录):mapred-site.xmlcore-site.xmlhdfs-site.xmlyarn-site.xml 在CDH发行版(特别需要注意的是,CDH的发行版和apache hadoop开源版还是有较大差异的,不 阅读全文
posted @ 2019-04-25 22:33 zhjh256 阅读(3164) 评论(0) 推荐(0) 编辑
摘要:MapReduce应用广泛的原因之一就是其易用性,提供了一个高度抽象化而变得非常简单的编程模型,它是在总结大量应用的共同特点的基础上抽象出来的分布式计算框架,在其编程模型中,任务可以被分解成相互独立的子问题。MapReduce编程模型给出了分布式编程方法的5个步骤: 下面就简要总结一下编程模型中用到 阅读全文
posted @ 2019-04-23 12:17 zhjh256 阅读(643) 评论(0) 推荐(0) 编辑
摘要:根据对各种生态组件的分析,较好的一种架构是: 存储层:使用HDFS for Parquet/Kudu/Hbase(HDFS for Parquet和Kudu各有利弊,HBase作为补充) 资源调度层:YARN(也成为MR2) 批处理:Hive(2.0中,beeline代替了hive控制台)或MapR 阅读全文
posted @ 2019-04-20 13:56 zhjh256 阅读(624) 评论(0) 推荐(0) 编辑
摘要:安装包下载 1、CM软件包下载 从http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.16.1/RPMS/x86_64/下载rpm包,如下: 其实不需要下载j2sdk的,因为cm安装过程中会自动安装的,自己下载了也没用(这个网上的一些文章说法是不 阅读全文
posted @ 2019-04-20 13:49 zhjh256 阅读(5417) 评论(0) 推荐(0) 编辑
摘要:CDH 5.x搭建请参考CentOS 7离线安装CDH 5.16.1完全指南(含各种错误处理)。 如果使用的是cloudera quickstart vm,则只能在linux服务器中使用eclipse提交,无法远程访问(主要是quickstart绑定的所有ip都是localhost所致,所以最好还是 阅读全文
posted @ 2019-04-20 13:18 zhjh256 阅读(773) 评论(0) 推荐(0) 编辑
摘要:本文整理了在hadoop学习过程中遇到的各种问题。 windows下开发环境搭建 大部分情况下,我们都是在windows下开发,hadoop则一般部署于linux服务器(无论是CDH还是原生hadoop,也无论是单机伪分布式还是完全分布式)。很多教程的做法都是打成jar,然后上传到linux服务器, 阅读全文
posted @ 2019-04-11 11:30 zhjh256 阅读(8349) 评论(0) 推荐(0) 编辑
摘要:参考:Apache Impala Guide--Impala SQL Language Reference。 Impala使用和Hive一样的元数据存储,Impala可以访问使用原生Impala CREATE TABLE创建的表和Hive DDL创建的表; Impala支持和HiveQL类似的DML 阅读全文
posted @ 2019-04-07 18:00 zhjh256 阅读(1213) 评论(0) 推荐(0) 编辑
摘要:配置参数管理 待补充。。。 资源分配管理(Admission Control) Impala有资源池的概念,允许某些查询在特定的资源池执行,不过在白天不跑批/晚上不跑adhoc的DSS系统中,该机制并不常用(oracle、cgroup性质都类似),有兴趣可以参考《Impala Guide 中的Adm 阅读全文
posted @ 2019-04-07 18:00 zhjh256 阅读(448) 评论(0) 推荐(0) 编辑
摘要:架构 Hadoop整体由HDFS、YARN、MapReduce三大部分组成,推荐架构参考:https://www.cnblogs.com/zhjh256/p/10573684.html。 注:2.x的时候引入了YARN、并调整了一系列进程,其性能较差,本文主要讲解2.0体系。1.0可以参考https 阅读全文
posted @ 2019-04-07 17:59 zhjh256 阅读(323) 评论(0) 推荐(0) 编辑
摘要:CDH quickstart vm包含了单节点的全套hadoop服务生态,可从https://www.cloudera.com/downloads/quickstart_vms/5-13.html下载。如下: 对应的节点如下(不包含Cloudera Navigator): 要学习完整的hadoop生 阅读全文
posted @ 2019-04-06 22:43 zhjh256 阅读(2093) 评论(0) 推荐(0) 编辑
摘要:最近学习hadoop以及生态,顺便看到了这篇文章,总结的很到位,转载下。 我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也 阅读全文
posted @ 2019-03-27 07:45 zhjh256 阅读(417) 评论(0) 推荐(1) 编辑
摘要:官方文档https://mariadb.com/kb/en/library/mariadb-columnstore/ 推荐使用最新1.2.x最新版本。 先决条件 安装1.0的jemalloc,可下载rpm包如jemalloc-3.6.0-1.el7.x86_64.rpm。 安装(单机) 推荐下载li 阅读全文
posted @ 2019-03-15 08:33 zhjh256 阅读(1445) 评论(0) 推荐(0) 编辑
摘要:10.10.6 大数据量插入优化 在很多涉及支付和金融相关的系统中,夜间会进行批处理,在批处理的一开始或最后一般需要将数据回库,因为应用和数据库通常部署在不同的服务器,而且应用所在的服务器一般也不会去安装oracle客户端,同时为了应用管理和开发模式统一,很多会利用mybatis的foreach c 阅读全文
posted @ 2018-11-23 16:45 zhjh256 阅读(1267) 评论(0) 推荐(0) 编辑
摘要:版本介绍 目前最新版本为2.3(20190808更新)。demo搭建可参见https://www.orchome.com/6,收发消息测试可见https://www.cnblogs.com/yoyo1216/p/14024427.html。 从使用上来看,以0.9为分界线,0.9开始不再区分高级(相 阅读全文
posted @ 2018-09-20 10:58 zhjh256 阅读(9415) 评论(2) 推荐(2) 编辑

点击右上角即可分享
微信分享提示