摘要: http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/ 阅读全文
posted @ 2017-11-10 09:35 hongma 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 参考:http://blog.csdn.net/lsshlsw/article/details/44786575 为什么需要historyServer? 在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的 阅读全文
posted @ 2017-11-10 09:22 hongma 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 产生背景 直接源于MRv1在几个方面的缺陷 扩展性受限(NameNode,JobTracker设计为单一节点,内存容量有限) 单点故障 难以支持MR之外的计算 slot数目无法动态修改,Map slot,Reduce slot不能共享 优点: 将资源管理和作业控制分离,减小JobTracker压力 阅读全文
posted @ 2017-11-09 22:38 hongma 阅读(565) 评论(0) 推荐(0) 编辑
摘要: Spark为什么会比mapreduce快,Spark存在的问题以及改进思路,与数据库思想的碰撞 阅读全文
posted @ 2017-10-31 18:36 hongma 阅读(175) 评论(0) 推荐(0) 编辑
摘要: hadoop家族 阅读全文
posted @ 2017-10-31 18:28 hongma 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 所谓动态引擎,就是说比如有很多张表的Join,原始的做法是一开始就生成好这个执行计划,随后执行,但实际上很多表Join的时候,你一开始生成的那个执行计划很有可能是不对的。 那么动态执行计划就是指它可以边执行边帮助搜集最准确的执行信息,从而调整后面的执行计划 ORACLE语法 → PostgreSQL 阅读全文
posted @ 2017-10-31 18:03 hongma 阅读(8565) 评论(0) 推荐(0) 编辑
摘要: 一、数据倾斜发生的原理 原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffl 阅读全文
posted @ 2017-10-31 18:02 hongma 阅读(6077) 评论(0) 推荐(2) 编辑
摘要: 参考: https://tech.meituan.com/spark-tuning-basic.html https://zhuanlan.zhihu.com/p/22024169 一、开发调优 1、避免创建重复RDD 对于同一份数据,只应该创建一个RDD,不要创建多个RDD来代表同一份数据。 2、 阅读全文
posted @ 2017-10-31 16:33 hongma 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 术语定义 Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; Driver:Spark中的Driver即运行上述Appl 阅读全文
posted @ 2017-10-31 15:57 hongma 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 参考:http://blog.csdn.net/dc_726/article/details/41381791 spark中使用了RDD(Resilient Distributed Datasets, 弹性分布式数据集)抽象分布式计算,即使用RDD以及对应的transform/action等操作来执 阅读全文
posted @ 2017-10-28 22:14 hongma 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 1)hive和关系型数据库存储文件的系统不同。 hive使用hdfs(hadoop的分布式文件系统),关系型数据库则是服务器本地的文件系统; 2)hive使用的计算模型是mapreduce,而关系型数据库则是自己设计的计算模型。 3)hive是为海量数据做数据挖掘设计的,实时性差;而关系型数据库是为 阅读全文
posted @ 2017-10-27 16:45 hongma 阅读(3955) 评论(0) 推荐(0) 编辑
摘要: 1. Hadoop3.0简介 Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。 Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或1 阅读全文
posted @ 2017-10-23 09:57 hongma 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 1、元数据的概念 传统定义上,元数据Metadata是关于数据的数据(data about data),在数据仓库中,元数据是描述数据仓库内数据的结构以及建立方法的数据,按其用途分为技术元数据和业务元数据。 元数据指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关 阅读全文
posted @ 2017-10-20 17:53 hongma 阅读(3845) 评论(0) 推荐(0) 编辑
摘要: sparksql结合hive最佳实践一、Spark SQL快速上手1、Spark SQL是什么Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。2、Spark SQL的基础数据模型 Data 阅读全文
posted @ 2017-10-20 16:55 hongma 阅读(4074) 评论(0) 推荐(1) 编辑
摘要: hadoop 2.6.1 hive 2.1.1 hbase 1.2.6 spark 2.1.1 redis 3.2. 阅读全文
posted @ 2017-10-20 16:54 hongma 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 一、Docker Hello World Docker 允许你在容器内运行应用程序, 使用 docker run 命令来在容器内运行一个应用程序。 输出Hello world 各个参数解析: docker: Docker 的二进制执行文件。 run:与前面的 docker 组合来运行一个容器。 ub 阅读全文
posted @ 2017-10-20 16:54 hongma 阅读(663) 评论(0) 推荐(0) 编辑
摘要: 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。 一、Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即: 阅读全文
posted @ 2017-10-20 16:52 hongma 阅读(18355) 评论(1) 推荐(2) 编辑
摘要: 参考: http://www.csdn.net/article/2015-01-13/2823530 http://www.cnblogs.com/smartloli/p/4288493.html http://www.cnblogs.com/smartloli/p/4356660.html htt 阅读全文
posted @ 2017-10-20 16:50 hongma 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 1、用row_number()函数生成代理键 2、用UDFRowSequence生成代理键 ——报错? 阅读全文
posted @ 2017-10-17 20:45 hongma 阅读(8345) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/muchen/category/794750.html 数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。 从功能结构划分,数据仓库系统至少应该包含数据获取(Dat 阅读全文
posted @ 2017-10-17 12:55 hongma 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 语法delete from aa truncate table aa 区别 1.delete from后面可以写条件,truncate不可以。 2.delete from记录是一条条删的,所删除的每行记录都会进日志,而truncate一次性删掉整个页,因此日至里面只记录页释放,简言之,delete 阅读全文
posted @ 2017-10-17 10:46 hongma 阅读(278) 评论(0) 推荐(0) 编辑
摘要: create table tb_menu( id number(10) not null, --主键id titlevarchar2(50), --标题 parent number(10) --parent id ) 打印层级结构select lpad(' ',2*level-1)||title t 阅读全文
posted @ 2017-10-17 10:41 hongma 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 对于以下需求:用户表:users (user_id int)订单表:order_tb(user_id int, or_time date, or_money double)求以下用户:一月下过单,二月份没有下过单的三月份下单用户的如下指标:三月份订单金额大于100的订单数,三月份第一笔订单和最后一笔 阅读全文
posted @ 2017-10-16 17:50 hongma 阅读(1052) 评论(0) 推荐(0) 编辑
摘要: 感觉只要是列的类型不同列换位置就行不通啊!并且这种更换只是元数据换了,里面存的数据还是原来的!鸡肋操作 阅读全文
posted @ 2017-09-27 10:36 hongma 阅读(1987) 评论(0) 推荐(0) 编辑
摘要: Hadoop Streaming提供了一个便于进行MapReduce编程的工具包,使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer,Streaming方式是基于Unix系统的标准输入输出来进行MapReduce Job的运行。 任何支持标准输入输出特性的编程语 阅读全文
posted @ 2017-09-26 19:41 hongma 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 表employees中字段 taxes(税率)用类型float存储 hive> select name, salary, taxes from employees where taxes > 0.2 john 5300.0 0.2 marry 9500.0 0.2 jack 15000.0 0.3 阅读全文
posted @ 2017-09-26 14:05 hongma 阅读(3220) 评论(0) 推荐(0) 编辑
摘要: Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。(行级的insert好像不配置也能运行) 1、修改hive-site.xml,添加如下语句: 2、修改hive-site.xml 后,执 阅读全文
posted @ 2017-09-24 21:13 hongma 阅读(7293) 评论(0) 推荐(0) 编辑
摘要: 笔记来源《Hive编程指南》 一、hive命令行界面: $HOME/.hiverc文件: set hive.cli.print.current.db=true;set hive.cli.print.header=true;set hive.exec.mode.local.auto=true;set 阅读全文
posted @ 2017-09-24 12:58 hongma 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 数据库优劣势比较 阅读全文
posted @ 2017-09-22 14:11 hongma 阅读(3671) 评论(0) 推荐(0) 编辑
摘要: HBase做为KeyValue结构存储,在存储上是依照RowKey的字典序进行排序,对于很多应用而言这可能远远不够,好在HBase的数据可以存储多个版本,并且版本可以排序,其理论上最大的版本数目Integer.MAX_VALUE,这在一定程度上简化应用端的设计 举个例子,假设现在有一个应用,对用户的 阅读全文
posted @ 2017-09-22 14:06 hongma 阅读(752) 评论(0) 推荐(0) 编辑
摘要: hbase shell 基本命令;存储模型;读写机制;与客户端交互模型 阅读全文
posted @ 2017-09-22 14:03 hongma 阅读(142) 评论(0) 推荐(0) 编辑
摘要: slowlog和排队延时,redis数据丢失 阅读全文
posted @ 2017-09-22 13:57 hongma 阅读(188) 评论(0) 推荐(0) 编辑
摘要: redis 复制;集群; sentinel; 阅读全文
posted @ 2017-09-19 20:08 hongma 阅读(137) 评论(0) 推荐(0) 编辑
摘要: redis读写键空间时的维护操作;键的生存时间功能及删除策略;RDB持久化;AOF持久化;两种持久化方式对比 ;安全处理 阅读全文
posted @ 2017-09-19 15:03 hongma 阅读(169) 评论(0) 推荐(0) 编辑
摘要: docker 应用场景 阅读全文
posted @ 2017-09-19 14:57 hongma 阅读(400) 评论(0) 推荐(0) 编辑
摘要: redis 对象,内存回收,对象共享 阅读全文
posted @ 2017-09-18 17:23 hongma 阅读(146) 评论(0) 推荐(0) 编辑