09 2017 档案
摘要:归并排序是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。 先从字面意思来说, 归:归代表了将一个大的数组通过递归的方式,最终拆成一个个的元素 并:并就是将两个相邻的数组按照顺序组成一个新的数组,循环此操作,最终组成一个新的数组
阅读全文
摘要:引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景: 前两者都基于的是Hash Join,只不过在hash
阅读全文
摘要:1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。 St
阅读全文
摘要:适用场景 进行join中至少有一个RDD的数据量比较少(比如几百M,或者1-2G) 因为,每个Executor的内存中,都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例 创建RDD 传统的join 使用Broadcast+map的join操作
阅读全文
摘要:在spark中要进行join操作,如果在shuffle的时候进行join效率较低。如果满足 所需要join的表中有一张表较小,那么可以考虑在map端进行join操作。 转载:http://blog.csdn.net/lsshlsw/article/details/50834858 将多份数据进行关联
阅读全文
摘要:一. 数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 二. 数据倾斜的原因 常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。 数据问题 spark使用问题 三. 数据倾斜的后果 一个理
阅读全文
摘要:http://www.cnblogs.com/justinzhang/p/4273470.html https://www.zhihu.com/question/21677041 1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL
阅读全文
摘要:http://www.yiibai.com/hive/hive_alter_table.html Alter Table 语句 它是在Hive中用来修改的表。 语法 声明接受任意属性,我们希望在一个表中修改以下语法。
阅读全文
摘要:在windows下编写shell脚本在linux下运行会出报错: 错误原因,文件格式错误 使用: set ff 命令可以看到 fileformat=dos 解决办法 1. :set fileformat=unix :wq保存修改 2. 执行sed i "s/\r//" load_ods_table.
阅读全文
摘要:创建表报错 注意,这里使用的hive链接为:jdbc:mysql://10.1.1.5:3306/hive?createDatabaseIfNotExist=true 如果数据库不存在会自动创建hive数据库,这时的hive数据编码会是默认数据库编码(我这里是UTF 8).修正数据库编码后正常创建表
阅读全文
摘要:关闭idea 打开项目所在位置并cd .idea 修改scala_compiler.xml文件 删除掉参数行包含 make:transitive 保存后退出编辑并重启idea打开项目
阅读全文
摘要:转载:http://blog.csdn.net/sparkexpert/article/details/52871000 随着新版本的spark已经逐渐稳定,最近拟将原有框架升级到spark 2.0。还是比较兴奋的,特别是SQL的速度真的快了许多。。 然而,在其中一个操作时却卡住了。主要是dataf
阅读全文
摘要:zk启动报错 解决办法,进入zkdata目录删除version 2下面的所有文件 参考: https://issues.apache.org/jira/browse/ZOOKEEPER 1546
阅读全文
摘要:初学Scala的人都会被Seq的各种操作符所confuse。下面简单列举一下各个Seq操作符的区别。 4种操作符的区别和联系 1. :: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为 x::list,其中x为加入到头部的元素,无论x是列表与否,它都只将成为新生成列表的第
阅读全文