摘要:
博客不会再更新,博客新地址:https://itdiandi.com/ 阅读全文
摘要:
一、表设计 合理分表 合理设计表分区,静态分区、动态分区 二、扫描相关 1、谓词下推(Predicate Push Down) 2、列裁剪(Column Pruning) 在读数据的时候,只关心感兴趣的列,而忽略其他列 对于查询:select a,b from src where e < 10 其中 阅读全文
摘要:
hdp2.5自带的phoenix是4.7的,而客户的驾驶舱项目跑在4.7的phoenix上是有问题的,如:如果表中没有数据,执行select count(*) from 表,返回的是空,这时导致驾驶舱项目报错误。所以决定升级phoenix版本为4.8,过程如下 1、在ambari中关闭Hbase、A 阅读全文
摘要:
通过Parser将HiveQL转换成AST,通过Semantic Analyzer将AST转换为QB,通过Logical Plan Generator将QB转换成Operator Tree,通过Logical Optimizer对Operator Tree进行优化,通过Physical Plan G 阅读全文
摘要:
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce、Tez任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分 阅读全文
摘要:
将非工作时间、非工作日、节假日去掉,计算工作时间,如下: 一、实现 二、测试 三、效果 如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。 如果,您希望更容易地发现我的新博客,不妨点击一下左下角的【关注我】。 如果,您对我的博客所讲述的内容有兴趣,请继续关注我的后续博客,我是【刘超 阅读全文
摘要:
有时会碰到一些需求,查询分组后的最大值,最小值所在的整行记录或者分组后的top n行的记录,像在hive中是有窗口函数的,可以通过它们来实现,但是MySQL没有这些函数,可通过下面的方法来实现 1、准备 2、TOP 1 需求:查询每门课程分数最高的学生以及成绩 实现方法:可以通过自连接、子查询来实现 阅读全文
摘要:
其实官方文档已经有这些东西了,如下: http://phoenix.apache.org/language/functions.html http://phoenix.apache.org/language/index.html 不过官网的某些编排确实有点反人类的意味,比如为了拼接一个字符串,我硬是 阅读全文
摘要:
1、准备 2、实现 说明:在DbVisualizer中,代码执行后,RANK这列含有小数点,所以这里通过case函数将其转换整数 3、结果 如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。 如果,您希望更容易地发现我的新博客,不妨点击一下左下角的【关注我】。 如果,您对我的博客所 阅读全文
摘要:
1、准备 2、实现 3、结果 如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。 如果,您希望更容易地发现我的新博客,不妨点击一下左下角的【关注我】。 如果,您对我的博客所讲述的内容有兴趣,请继续关注我的后续博客,我是【刘超★ljc】。 本文版权归作者,禁止转载,否则保留追究法律责 阅读全文
摘要:
1、登录命令 ./sqlline.py localhost:2181:/hbase-unsecure phoenix-sqlline localhost:2181:/hbase-unsecure phoenix-sqlline localhost:2181:/hbase-unsecure 2、退出 阅读全文
摘要:
在集群中安装atlas,在安装atlas的节点上执行hive -e "show databases;" 正常,但是在集群中其他节点上执行hive -e "show databases;" 命令报如下错误 一、分析 在安装atlas节点上和没有安装atlas的节点上分别再次执行hive --hivec 阅读全文
摘要:
如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。 如果,您希望更容易地发现我的新博客,不妨点击一下左下角的【关注我】。 如果,您对我的博客所讲述的内容有兴趣,请继续关注我的后续博客,我是【刘超★ljc】。 本文版权归作者和博客园共有,禁止转载,否则保留追究法律责任的权利。 如果, 阅读全文
摘要:
函数式接口定义 1、如果一个接口只有一个抽象方法,那么该接口就是一个函数式接口 2、如果我们在某接口上声明了FunctionalInterface注解,那么编译器就会按照函数式接口的定义来约束该接口 3、如果某个接口只有一个抽象方法,但我们并没有给该接口声明FunctionalInterface注解 阅读全文
摘要:
排除非工作时间、非工作日后,计算工作时间,代码如下: 说明:第一次实现这种需求,当初写的时候又比较赶,写完后,发现,虽然功能实现了,但还有好多地方可以调优 女票是搞数据运营的,经常需要统计员工的工作时间;听女票说,这段SQL代码统计时好像有些问题,但还没来的急分析原因呢;女票又有新需求来了,不仅需要 阅读全文
摘要:
特征 CVS Git Mercurial Subversion 是否原子提交 CVS: 没有. CVS提交不是原子的 Git: 是的. 提交都是原子的 Mercurial: 是的 Subversion: 提交都是原子的 文件和目录是否可以移动或重命名 CVS: 不是. 重命名不支持. 如果手动进行, 阅读全文
摘要:
1、http://apachespark.devpost.com/details/resources ,这个是全球网站上的数据集,包括Yelp(北美的大众美团),亚马逊Amazon Review Graph等 2、http://research.mapillary.com/,近日Mapillary发 阅读全文
摘要:
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 Data for MATLAB hackers (Handwritten Digits、Faces、Text) http://www.cs.toronto.edu/~rowei 阅读全文
摘要:
转载:http://www.cnblogs.com/bobomouse/archive/2007/05/26/760513.html 1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.cs.toronto 阅读全文
摘要:
错误: java.io.IOException: Incompatible clusterIDs in /data/dfs/data: namenode clusterID = CID-d1448b9e-da0f-499e-b1d4-78cb18ecdebb; datanode clusterID 阅读全文
摘要:
报如错误:JAVA_HOME is not set and could not be found,可能是因为JAVA_HOME环境没配置正确,还有一种情况是即使各结点都正确地配置了JAVA_HOME,但在集群环境下还是报该错误,解决方法是显示地重新声明一遍JAVA_HOME 1、检查JAVA_HOM 阅读全文
摘要:
错误: 14/04/29 02:45:07 INFO mapreduce.Job: Job job_1398704073313_0021 failed with state FAILED due to: Application application_1398704073313_0021 faile 阅读全文
摘要:
错误: org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for 原因: 两种可能,hadoop.tmp.dir或者data目录存储空间不足 解决办法: 看了 阅读全文
摘要:
错误: org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt 原因: 错误很明显,磁盘空间不足,但郁闷的是,进各节点查看,磁盘空间使用不到40%,还有很多空间。 郁闷很长时间才发现,原来有个map任务运行时 阅读全文
摘要:
错误: org.apache.hadoop.mapred.MapTask$NewOutputCollector@17bda0f2 java.io.IOException: Spill failed 错误原因: 本地磁盘空间不足非hdfs (我是在myeclipse中调试程序,本地tmp目录占满) 解 阅读全文
摘要:
报如下错误 解决方法: 方法一:(结果不起作用) 通过Shell命令方式,hadoop/bin/hdfs haadmin -failover --forceactive hadoop2 hadoop1(注意,这种方式本来是在手动故障恢复中进行强制切换NameNode的做法) 返回结果,不支持,并且诚 阅读全文
摘要:
错误: java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try 原因: 无法写入;我的环境中 阅读全文
摘要:
报如下错误: 解决方法: 1、增加调试信息 在HADOOP_HOME/etc/hadoop/hadoop-env.sh文件中添加如下信息 2、再执行一次操作,看看报什么错误 上面信息显示,需要2.14的glibc库 解决方法: 1、查看系统的libc版本(ll /lib64/libc.so.6) 显 阅读全文
摘要:
1、错误 Ignoring exception during close for org.apache.hadoop.mapred.MapTask$NewOutputCollector@17bda0f2 java.io.IOException: Spill failed2、原因 本地磁盘空间不足非h 阅读全文
摘要:
错误: FATAL org.apache.hadoop.hdfs.server.namenode.NameNode Exception in namenode join java.io.IOException There appears to be a gap in the edit log 原因: 阅读全文
摘要:
解决方法: 1、通过lsof -i:50070(lsof可以通过yum install lsof安装)查看,发现是mysql被占用了 2、修改mysql端口 从/usr/share/mysql/my-default.cnf复制成/etc/my.cnf文件;修改/etc/my.cnf文件,如下 如果, 阅读全文
摘要:
原因: Ambari 每分钟会向datanode发送"ping"连接一下去确保datanode是正常工作的.否则它会触发alert。但是datanode并没有处理空内容的逻辑,所以直接异常了 解决办法: 这个可以忽略,或者使用 https://issues.apache.org/jira/brows 阅读全文
摘要:
错误: DataXceiver error processing WRITE_BLOCK operation 原因: 文件操作超租期,实际上就是data stream操作过程中文件被删掉了。 解决办法: 修改hdfs-site.xml (针对2.x版本,1.x版本属性名应该是:dfs.datanod 阅读全文
摘要:
错误: 10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No live node 阅读全文
摘要:
报如下错误 解决方法: 1、下载libsnappy.so.1(https://yunpan.cn/cSHRHTBJGVVX6 访问密码 c992) 2、上传到linux系统 3、安装 4、安装完成后,再去检查,效果如下 如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。 如果,您希 阅读全文
摘要:
报如下错误 解决方法: 1、使用hadoop checknative –a命令检查,报如下错误 2、使用如下命令建立libcrypto.so文件的符号链接 如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。 如果,您希望更容易地发现我的新博客,不妨点击一下左下角的【关注我】。 如果 阅读全文
摘要:
1、临时修改主机名 hostname 主机名 重新连接shell,就可以,这种方式,只能修改临时的主机名,当重启机器后,主机名称又变回来了。 2、永久修改主机名 hostnamectl set-hostname <hostname> reboot,重启系统 重新连接shell,使用这种方式修改,可以 阅读全文
摘要:
安装前,需要确认dell笔记本是否支持uefi <!--[if !supportLists]-->1、使用UltraISO制作硬盘镜像后,过程如下 <!--[if !supportLists]-->1) 选择“文件”-》“打开”,如下 <!--[if !supportLists]-->2) 在打开的 阅读全文
摘要:
在java 1.5中,提供了一些非常有用的辅助类来帮助我们进行并发编程,比如CountDownLatch,CyclicBarrier和Semaphore,今天我们就来学习一下这三个辅助类的用法 一、CountDownLatch用法 CountDownLatch类位于java.util.concurr 阅读全文
摘要:
在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。影响map个数(split个数)的主要因素有: 1) 文件的大小。当块(dfs.block.size)为128m时,如果输入文件为128m,会被划分为1个split;当块为256m 阅读全文