hongma

2017年11月10日

摘要： http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/ 阅读全文

posted @ 2017-11-10 09:35 hongma 阅读(270) 评论(0) 推荐(0) 编辑

摘要：参考：http://blog.csdn.net/lsshlsw/article/details/44786575 为什么需要historyServer? 在运行Spark Application的时候，Spark会提供一个WEBUI列出应用程序的运行时信息；但该WEBUI随着Application的阅读全文

posted @ 2017-11-10 09:22 hongma 阅读(359) 评论(0) 推荐(0) 编辑

2017年11月9日

yarn 原理

摘要：产生背景直接源于MRv1在几个方面的缺陷扩展性受限(NameNode,JobTracker设计为单一节点，内存容量有限) 单点故障难以支持MR之外的计算 slot数目无法动态修改，Map slot，Reduce slot不能共享优点：将资源管理和作业控制分离，减小JobTracker压力阅读全文

posted @ 2017-11-09 22:38 hongma 阅读(565) 评论(0) 推荐(0) 编辑

2017年10月31日

spark 相关

摘要： Spark为什么会比mapreduce快，Spark存在的问题以及改进思路，与数据库思想的碰撞阅读全文

posted @ 2017-10-31 18:36 hongma 阅读(175) 评论(0) 推荐(0) 编辑

hadoop 家族图

摘要： hadoop家族阅读全文

posted @ 2017-10-31 18:28 hongma 阅读(318) 评论(0) 推荐(0) 编辑

pg 与 oracle 比较

摘要：所谓动态引擎，就是说比如有很多张表的Join，原始的做法是一开始就生成好这个执行计划，随后执行，但实际上很多表Join的时候，你一开始生成的那个执行计划很有可能是不对的。那么动态执行计划就是指它可以边执行边帮助搜集最准确的执行信息，从而调整后面的执行计划 ORACLE语法 → PostgreSQL 阅读全文

posted @ 2017-10-31 18:03 hongma 阅读(8565) 评论(0) 推荐(0) 编辑

Spark性能优化--数据倾斜调优与shuffle调优

摘要：一、数据倾斜发生的原理原理：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffl 阅读全文

posted @ 2017-10-31 18:02 hongma 阅读(6077) 评论(0) 推荐(2) 编辑

Spark性能优化--开发调优与资源调优

摘要：参考： https://tech.meituan.com/spark-tuning-basic.html https://zhuanlan.zhihu.com/p/22024169 一、开发调优 1、避免创建重复RDD 对于同一份数据，只应该创建一个RDD，不要创建多个RDD来代表同一份数据。 2、阅读全文

posted @ 2017-10-31 16:33 hongma 阅读(634) 评论(0) 推荐(0) 编辑

spark 执行架构

摘要：术语定义 Application：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码； Driver：Spark中的Driver即运行上述Appl 阅读全文

posted @ 2017-10-31 15:57 hongma 阅读(449) 评论(0) 推荐(0) 编辑

2017年10月28日

Spark RDD

摘要：参考：http://blog.csdn.net/dc_726/article/details/41381791 spark中使用了RDD(Resilient Distributed Datasets, 弹性分布式数据集)抽象分布式计算，即使用RDD以及对应的transform/action等操作来执阅读全文

posted @ 2017-10-28 22:14 hongma 阅读(288) 评论(0) 推荐(0) 编辑

2017年10月27日

hive和关系型数据库

摘要： 1）hive和关系型数据库存储文件的系统不同。 hive使用hdfs（hadoop的分布式文件系统），关系型数据库则是服务器本地的文件系统； 2）hive使用的计算模型是mapreduce，而关系型数据库则是自己设计的计算模型。 3）hive是为海量数据做数据挖掘设计的，实时性差；而关系型数据库是为阅读全文

posted @ 2017-10-27 16:45 hongma 阅读(3955) 评论(0) 推荐(0) 编辑

2017年10月23日

Hadoop3.0新特性

摘要： 1. Hadoop3.0简介 Hadoop 2.0是基于JDK 1.7开发的，而JDK 1.7在2015年4月已停止更新，这直接迫使Hadoop社区基于JDK1.8重新发布一个新的Hadoop版本，而这正是hadoop 3.0。 Hadoop 3.0的alpha版预计今年夏天发布，GA版本11月或1 阅读全文

posted @ 2017-10-23 09:57 hongma 阅读(337) 评论(0) 推荐(0) 编辑

2017年10月20日

数据仓库元数据

摘要： 1、元数据的概念传统定义上，元数据Metadata是关于数据的数据(data about data)，在数据仓库中，元数据是描述数据仓库内数据的结构以及建立方法的数据，按其用途分为技术元数据和业务元数据。元数据指明了数据仓库中信息的内容和位置，刻画了数据的抽取和转换规则，存储了与数据仓库主题有关阅读全文

posted @ 2017-10-20 17:53 hongma 阅读(3845) 评论(0) 推荐(0) 编辑

spark sql

摘要： sparksql结合hive最佳实践一、Spark SQL快速上手1、Spark SQL是什么Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型，并且可被视为一个分布式的SQL查询引擎。2、Spark SQL的基础数据模型 Data 阅读全文

posted @ 2017-10-20 16:55 hongma 阅读(4074) 评论(0) 推荐(1) 编辑

自己安装的工具版本

摘要： hadoop 2.6.1 hive 2.1.1 hbase 1.2.6 spark 2.1.1 redis 3.2. 阅读全文

posted @ 2017-10-20 16:54 hongma 阅读(97) 评论(0) 推荐(0) 编辑

docker 使用

摘要：一、Docker Hello World Docker 允许你在容器内运行应用程序，使用 docker run 命令来在容器内运行一个应用程序。输出Hello world 各个参数解析： docker: Docker 的二进制执行文件。 run:与前面的 docker 组合来运行一个容器。 ub 阅读全文

posted @ 2017-10-20 16:54 hongma 阅读(663) 评论(0) 推荐(0) 编辑

hive mapjoin

摘要：笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。一、Hive Common Join 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：阅读全文

posted @ 2017-10-20 16:52 hongma 阅读(18355) 评论(1) 推荐(2) 编辑

hive 优化

摘要：参考： http://www.csdn.net/article/2015-01-13/2823530 http://www.cnblogs.com/smartloli/p/4288493.html http://www.cnblogs.com/smartloli/p/4356660.html htt 阅读全文

posted @ 2017-10-20 16:50 hongma 阅读(396) 评论(0) 推荐(0) 编辑

2017年10月17日

Hive实现自增列

摘要： 1、用row_number()函数生成代理键 2、用UDFRowSequence生成代理键 ——报错？阅读全文

posted @ 2017-10-17 20:45 hongma 阅读(8345) 评论(0) 推荐(0) 编辑

数据仓库概念相关

摘要： http://www.cnblogs.com/muchen/category/794750.html 数据仓库系统是一个信息提供平台，他从业务处理系统获得数据，主要以星型模型和雪花模型进行数据组织，并为用户提供各种手段从数据中获取信息和知识。从功能结构划分，数据仓库系统至少应该包含数据获取（Dat 阅读全文

posted @ 2017-10-17 12:55 hongma 阅读(271) 评论(0) 推荐(0) 编辑

Oracle DELETE和TRUNCATE 的区别

摘要：语法delete from aa truncate table aa 区别 1.delete from后面可以写条件，truncate不可以。 2.delete from记录是一条条删的，所删除的每行记录都会进日志，而truncate一次性删掉整个页，因此日至里面只记录页释放，简言之，delete 阅读全文

posted @ 2017-10-17 10:46 hongma 阅读(278) 评论(0) 推荐(0) 编辑

connect by 语句

摘要： create table tb_menu( id number(10) not null, --主键id titlevarchar2(50), --标题 parent number(10) --parent id ) 打印层级结构select lpad(' ',2*level-1)||title t 阅读全文

posted @ 2017-10-17 10:41 hongma 阅读(206) 评论(0) 推荐(0) 编辑

2017年10月16日

面试遇到的订单表sql的解决方案

摘要：对于以下需求：用户表：users (user_id int)订单表：order_tb(user_id int, or_time date, or_money double)求以下用户：一月下过单，二月份没有下过单的三月份下单用户的如下指标：三月份订单金额大于100的订单数，三月份第一笔订单和最后一笔阅读全文

posted @ 2017-10-16 17:50 hongma 阅读(1052) 评论(0) 推荐(0) 编辑

2017年9月27日

hive 更改列的位置时遇到的问题

摘要：感觉只要是列的类型不同列换位置就行不通啊！并且这种更换只是元数据换了，里面存的数据还是原来的！鸡肋操作阅读全文

posted @ 2017-09-27 10:36 hongma 阅读(1987) 评论(0) 推荐(0) 编辑

2017年9月26日

hive自定义函数——hive streaming

摘要： Hadoop Streaming提供了一个便于进行MapReduce编程的工具包，使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer，Streaming方式是基于Unix系统的标准输入输出来进行MapReduce Job的运行。任何支持标准输入输出特性的编程语阅读全文

posted @ 2017-09-26 19:41 hongma 阅读(381) 评论(0) 推荐(0) 编辑

hive 中的float和double

摘要：表employees中字段 taxes(税率)用类型float存储 hive> select name, salary, taxes from employees where taxes > 0.2 john 5300.0 0.2 marry 9500.0 0.2 jack 15000.0 0.3 阅读全文

posted @ 2017-09-26 14:05 hongma 阅读(3220) 评论(0) 推荐(0) 编辑

2017年9月24日

Hive支持行级update、delete时遇到的问题

摘要： Hive从0.14版本开始支持事务和行级更新，但缺省是不支持的，需要一些附加的配置。要想支持行级insert、update、delete，需要配置Hive支持事务。（行级的insert好像不配置也能运行） 1、修改hive-site.xml，添加如下语句: 2、修改hive-site.xml 后，执阅读全文

posted @ 2017-09-24 21:13 hongma 阅读(7293) 评论(0) 推荐(0) 编辑

hive读书笔记

摘要：笔记来源《Hive编程指南》一、hive命令行界面： $HOME/.hiverc文件： set hive.cli.print.current.db=true;set hive.cli.print.header=true;set hive.exec.mode.local.auto=true;set 阅读全文

posted @ 2017-09-24 12:58 hongma 阅读(290) 评论(0) 推荐(0) 编辑

2017年9月22日

pg mysql 比较

摘要：数据库优劣势比较阅读全文

posted @ 2017-09-22 14:11 hongma 阅读(3671) 评论(0) 推荐(0) 编辑

HBase 数据的多版本特性潜在的意外

摘要： HBase做为KeyValue结构存储，在存储上是依照RowKey的字典序进行排序，对于很多应用而言这可能远远不够，好在HBase的数据可以存储多个版本，并且版本可以排序，其理论上最大的版本数目Integer.MAX_VALUE，这在一定程度上简化应用端的设计举个例子，假设现在有一个应用，对用户的阅读全文

posted @ 2017-09-22 14:06 hongma 阅读(752) 评论(0) 推荐(0) 编辑

hbase 笔记

摘要： hbase shell 基本命令;存储模型;读写机制;与客户端交互模型阅读全文

posted @ 2017-09-22 14:03 hongma 阅读(142) 评论(0) 推荐(0) 编辑

redis 问题记录

摘要： slowlog和排队延时，redis数据丢失阅读全文

posted @ 2017-09-22 13:57 hongma 阅读(188) 评论(0) 推荐(0) 编辑

2017年9月19日

redis 学习笔记三

摘要： redis 复制；集群; sentinel; 阅读全文

posted @ 2017-09-19 20:08 hongma 阅读(137) 评论(0) 推荐(0) 编辑

redis 学习笔记二