摘要:
转载:http://blog.csdn.net/cindy9902/article/details/6215769MySQL: ERROR 1071 (42000): Specified key was too long; max key length is 767 bytes 今天测试遇到了这样的问题: MySQL> use test; create table test(a va... 阅读全文
摘要:
避免执行MR select * or select field1,field2 limit 10 where语句中只有分区字段或该表的本地字段 使用本地set hive.exec.mode.local.auto=true; select * or select field1,field2 limit 阅读全文
摘要:
hive执行脚本 hive -e “sql语句” 会将查询的结果打印在控制台上。 hive -e “sql语句” >> xxx 会将查询的结果重定向到xxx文件中,会显示OK和抓取的数据条数 hive -S -e “sql语句” >> xxx 会将查询的结果重定向到xxx文件中,不会显示OK和抓取的 阅读全文
摘要:
1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=node1 ### 1.2修改IP 两种方式: 第一种:通过Linux图形界面进行修改(强烈推荐) 进入Linux图形界 阅读全文
摘要:
mac 上python编译报错No module named MySQLdb You installed python You did brew install mysql You did export PATH=$PATH:/usr/local/mysql/bin And finally, you 阅读全文
摘要:
http://blog.csdn.net/citywolf4/article/details/49071679 https://github.com/mmastrac/iterm2-zmodem 阅读全文
摘要:
对于编译出的程序,在 cmd 和 power shell 运行时都不能正确显示汉字。 网上查,可以再命令窗口修改: 1、打开CMD.exe命令行窗口 2、通过 chcp命令改变代码页,UTF-8的代码页为65001 chcp 65001 执行该操作后,代码页就被变成UTF-8了。 在当前窗口的确可以 阅读全文
摘要:
每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性 阅读全文
摘要:
OLTP:联机事物处理 OLAP:联机分析处理 当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。 OLTP是传统的关系型数据库的主要应用,主要是 阅读全文
摘要:
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决 2.1 数据倾斜原理 2.2 数据倾斜问题发现与 阅读全文
摘要:
Spark Streaming与Storm都可以做实时计算,那么在做技术选型的时候到底应该选择哪个呢?通过下图可以从计算模型、计算延迟、吞吐量、事物、容错性、动态并行度等方方面进行对比。 对于Storm来说: 1、建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进 阅读全文
摘要:
通过分析reduceByKey和groupByKey的源码,发现两个算子都使用了combineByKey这个算子,那么现在来分析一下combineByKey算子。 在combineByKey函数中包含 createCombiner、mergeValue、mergeCombiners函数 create 阅读全文
摘要:
先来看一下在PairRDDFunctions.scala文件中reduceByKey和groupByKey的源码 通过源码可以发现: reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的combin 阅读全文
摘要:
Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。 网官图中所 阅读全文
摘要:
归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。 先从字面意思来说, 归:归代表了将一个大的数组通过递归的方式,最终拆成一个个的元素 并:并就是将两个相邻的数组按照顺序组成一个新的数组,循环此操作,最终组成一个新的数组 阅读全文
摘要:
引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景: 前两者都基于的是Hash Join,只不过在hash 阅读全文
摘要:
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。 St 阅读全文
摘要:
适用场景 进行join中至少有一个RDD的数据量比较少(比如几百M,或者1-2G) 因为,每个Executor的内存中,都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例 创建RDD 传统的join 使用Broadcast+map的join操作 阅读全文
摘要:
在spark中要进行join操作,如果在shuffle的时候进行join效率较低。如果满足 所需要join的表中有一张表较小,那么可以考虑在map端进行join操作。 转载:http://blog.csdn.net/lsshlsw/article/details/50834858 将多份数据进行关联 阅读全文
摘要:
一. 数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 二. 数据倾斜的原因 常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。 数据问题 spark使用问题 三. 数据倾斜的后果 一个理 阅读全文