BYRHuangQiang

SparkSQL配置和使用初探

摘要： 1.环境OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)Hadoop:Hadoop 2.4.1Hive：0.11.0JDK:1.7.0_60Spark:1.1.0（内置SparkSQL）Scala:2.11.22.Spark集群规划账... 阅读全文

posted @ 2014-10-08 21:26 BYRHuangQiang 阅读(8131) 评论(1) 推荐(0) 编辑

面试：如何找出字符串的字典序全排列的第N种

摘要： 1.题目如何找出字符串的字典序全排列的第N种？（字符串全排列的变种）2.思路主要想通过这题，介绍一下康托展开式。基于康托展开式可以解决这个问题。一般的解法：①求出所有全排列 ②按照字典序排个序 ③取第N个3.康托展开与逆展开康托展开是一个全排列到一个自然数的双射，常用于构建哈希表时的空间压缩。康托... 阅读全文

posted @ 2014-09-26 11:25 BYRHuangQiang 阅读(2987) 评论(0) 推荐(1) 编辑

面试：字符串的全排列

摘要： 1.题目输入一个字符串，打印出该字符串中字符的全排列。例如输入字符串abc，则打印出[cab, abc, cba, bca, bac, acb]题目难度适中，可以考察递归、非递归、是否有无重复字符的全排列等。2.思路对于全排列，比如有3个字符abc，共有3!=6种排列.首先分析出数学递归公式... 阅读全文

posted @ 2014-09-25 10:32 BYRHuangQiang 阅读(4531) 评论(0) 推荐(3) 编辑

面试：快速排序

摘要：快排，排序算法，对包含n个数的输入数组，最坏情况运行时间为O(n2)。快排通常是用于排序的最佳实用选择，平均性能相当好时间复杂度为O(nlogn),且O(nlogn)记号中隐含的常数因子很小。时间复杂度：O(NlogN); 空间复杂度：O(1)1. 一个典型子数组A[p..r]排序的分治过程的三个步... 阅读全文

posted @ 2014-09-23 19:25 BYRHuangQiang 阅读(2205) 评论(1) 推荐(2) 编辑

Spark、Shark集群安装部署及遇到的问题解决

摘要： 1.部署环境OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)Hadoop:Hadoop 2.4.1Hive：0.11.0JDK:1.7.0_60Python:2.6.6(spark集群需要python2.6以上，否则无法在spark集... 阅读全文

posted @ 2014-09-04 18:06 BYRHuangQiang 阅读(3289) 评论(0) 推荐(0) 编辑

Tachyon Cluster: 基于Zookeeper的Master High Availability（HA）高可用配置实现

摘要： 1.Tachyon简介Tachyon是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark和 MapReduce那样。通过利用信息继承，内存侵入，Tachyon获得了高性能。Tachyon工作集文件缓存在内存中，并且让不同的 Jobs/Queries以及框架都能... 阅读全文

posted @ 2014-08-27 17:43 BYRHuangQiang 阅读(1326) 评论(0) 推荐(0) 编辑

Spark:Master High Availability（HA）高可用配置的2种实现

摘要： Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题，Spark提供了两种方案：基于文件系统的单点恢复(Single-Node Recovery with Loc... 阅读全文

posted @ 2014-08-26 16:55 BYRHuangQiang 阅读(8525) 评论(0) 推荐(1) 编辑

Hadoop HDFS文件常用操作及注意事项（更新）

摘要： 1.Copy a file from the local file system to HDFSThe srcFile variable needs to contain the full name (path + file name) of the file in the local file s... 阅读全文

posted @ 2014-08-21 10:53 BYRHuangQiang 阅读(11359) 评论(1) 推荐(2) 编辑

JAVA的节点流和处理流以及流的关闭顺序

摘要：今天在编写hadoop程序的时候，用到了流的处理。关闭流的时候出现了问题：代码： 1 FSDataInputStream fsin = fs.open(new Path(filein)); 2 FSDataOutputStream fsout = fs.append(new Path(fileout... 阅读全文

posted @ 2014-08-20 16:45 BYRHuangQiang 阅读(14578) 评论(1) 推荐(2) 编辑

Sqoop安装与使用(sqoop-1.4.5 on hadoop 1.0.4)

摘要： 1.什么是SqoopSqoop即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，Sqoop1和Sqoop2。Sqoop工具是hadoop下连接关系型数据库和Had... 阅读全文

posted @ 2014-08-19 17:18 BYRHuangQiang 阅读(2900) 评论(0) 推荐(0) 编辑