10 2017 档案

摘要:Spark为什么会比mapreduce快,Spark存在的问题以及改进思路,与数据库思想的碰撞 阅读全文
posted @ 2017-10-31 18:36 hongma 阅读(191) 评论(0) 推荐(0)
摘要:hadoop家族 阅读全文
posted @ 2017-10-31 18:28 hongma 阅读(331) 评论(0) 推荐(0)
摘要:所谓动态引擎,就是说比如有很多张表的Join,原始的做法是一开始就生成好这个执行计划,随后执行,但实际上很多表Join的时候,你一开始生成的那个执行计划很有可能是不对的。 那么动态执行计划就是指它可以边执行边帮助搜集最准确的执行信息,从而调整后面的执行计划 ORACLE语法 → PostgreSQL 阅读全文
posted @ 2017-10-31 18:03 hongma 阅读(8917) 评论(0) 推荐(0)
摘要:一、数据倾斜发生的原理 原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffl 阅读全文
posted @ 2017-10-31 18:02 hongma 阅读(6195) 评论(0) 推荐(2)
摘要:参考: https://tech.meituan.com/spark-tuning-basic.html https://zhuanlan.zhihu.com/p/22024169 一、开发调优 1、避免创建重复RDD 对于同一份数据,只应该创建一个RDD,不要创建多个RDD来代表同一份数据。 2、 阅读全文
posted @ 2017-10-31 16:33 hongma 阅读(655) 评论(0) 推荐(0)
摘要:术语定义 Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; Driver:Spark中的Driver即运行上述Appl 阅读全文
posted @ 2017-10-31 15:57 hongma 阅读(472) 评论(0) 推荐(0)
摘要:参考:http://blog.csdn.net/dc_726/article/details/41381791 spark中使用了RDD(Resilient Distributed Datasets, 弹性分布式数据集)抽象分布式计算,即使用RDD以及对应的transform/action等操作来执 阅读全文
posted @ 2017-10-28 22:14 hongma 阅读(309) 评论(0) 推荐(0)
摘要:1)hive和关系型数据库存储文件的系统不同。 hive使用hdfs(hadoop的分布式文件系统),关系型数据库则是服务器本地的文件系统; 2)hive使用的计算模型是mapreduce,而关系型数据库则是自己设计的计算模型。 3)hive是为海量数据做数据挖掘设计的,实时性差;而关系型数据库是为 阅读全文
posted @ 2017-10-27 16:45 hongma 阅读(4042) 评论(0) 推荐(0)
摘要:1. Hadoop3.0简介 Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。 Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或1 阅读全文
posted @ 2017-10-23 09:57 hongma 阅读(365) 评论(0) 推荐(0)
摘要:1、元数据的概念 传统定义上,元数据Metadata是关于数据的数据(data about data),在数据仓库中,元数据是描述数据仓库内数据的结构以及建立方法的数据,按其用途分为技术元数据和业务元数据。 元数据指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关 阅读全文
posted @ 2017-10-20 17:53 hongma 阅读(3951) 评论(0) 推荐(0)
摘要:sparksql结合hive最佳实践一、Spark SQL快速上手1、Spark SQL是什么Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。2、Spark SQL的基础数据模型 Data 阅读全文
posted @ 2017-10-20 16:55 hongma 阅读(4144) 评论(0) 推荐(1)
摘要:一、Docker Hello World Docker 允许你在容器内运行应用程序, 使用 docker run 命令来在容器内运行一个应用程序。 输出Hello world 各个参数解析: docker: Docker 的二进制执行文件。 run:与前面的 docker 组合来运行一个容器。 ub 阅读全文
posted @ 2017-10-20 16:54 hongma 阅读(691) 评论(0) 推荐(0)
摘要:hadoop 2.6.1 hive 2.1.1 hbase 1.2.6 spark 2.1.1 redis 3.2. 阅读全文
posted @ 2017-10-20 16:54 hongma 阅读(107) 评论(0) 推荐(0)
摘要:笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。 一、Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即: 阅读全文
posted @ 2017-10-20 16:52 hongma 阅读(18485) 评论(1) 推荐(2)
摘要:参考: http://www.csdn.net/article/2015-01-13/2823530 http://www.cnblogs.com/smartloli/p/4288493.html http://www.cnblogs.com/smartloli/p/4356660.html htt 阅读全文
posted @ 2017-10-20 16:50 hongma 阅读(407) 评论(0) 推荐(0)
摘要:1、用row_number()函数生成代理键 2、用UDFRowSequence生成代理键 ——报错? 阅读全文
posted @ 2017-10-17 20:45 hongma 阅读(8383) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/muchen/category/794750.html 数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。 从功能结构划分,数据仓库系统至少应该包含数据获取(Dat 阅读全文
posted @ 2017-10-17 12:55 hongma 阅读(282) 评论(0) 推荐(0)
摘要:语法delete from aa truncate table aa 区别 1.delete from后面可以写条件,truncate不可以。 2.delete from记录是一条条删的,所删除的每行记录都会进日志,而truncate一次性删掉整个页,因此日至里面只记录页释放,简言之,delete 阅读全文
posted @ 2017-10-17 10:46 hongma 阅读(294) 评论(0) 推荐(0)
摘要:create table tb_menu( id number(10) not null, --主键id titlevarchar2(50), --标题 parent number(10) --parent id ) 打印层级结构select lpad(' ',2*level-1)||title t 阅读全文
posted @ 2017-10-17 10:41 hongma 阅读(221) 评论(0) 推荐(0)
摘要:对于以下需求:用户表:users (user_id int)订单表:order_tb(user_id int, or_time date, or_money double)求以下用户:一月下过单,二月份没有下过单的三月份下单用户的如下指标:三月份订单金额大于100的订单数,三月份第一笔订单和最后一笔 阅读全文
posted @ 2017-10-16 17:50 hongma 阅读(1078) 评论(0) 推荐(0)