上一页 1 2 3 4 5 6 7 8 9 ··· 29 下一页
摘要: 1、hive参数优化之默认启用本地模式启动hive本地模式参数,一般建议将其设置为true,即时刻启用:hive (chavin)> set hive.exec.mode.local.auto; hive.exec.mode.local.auto=false2、设置hive执行模式hive (default)> set hive.mapred.mode;hive.mapred.mode=n... 阅读全文
posted @ 2017-09-27 13:19 ChavinKing 阅读(3331) 评论(0) 推荐(0) 编辑
摘要: 动态分区插入可以基于查询语句分出出要插入的分区名称。比如,下面向分区表插入数据的SQL:insert into table chavin.emp_pat partition(dname,loc)select e.empno,e.ename,e.job,e.mgr,e.hiredate,e.sal,e.comm,e.deptno,d.dname,d.loc from dept d join emp ... 阅读全文
posted @ 2017-09-27 13:18 ChavinKing 阅读(965) 评论(0) 推荐(0) 编辑
摘要: 1、开启hive作业mapreduce任务中间压缩功能:对于数据进行压缩可以减少job中map和reduce task间的数据传输量。对于中间数据压缩,选择一个低cpu开销编/解码器要不选择一个压缩率高的编解码器重要很多。hadoop压缩的默认编解码器是DefaultCodec,可以通过设置参数mapred.map.output.compression.codec来进行相应调整,这是一个hadoo... 阅读全文
posted @ 2017-09-27 13:17 ChavinKing 阅读(1561) 评论(0) 推荐(0) 编辑
摘要: 一、调整hive作业中的map数1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7... 阅读全文
posted @ 2017-09-27 13:17 ChavinKing 阅读(11020) 评论(1) 推荐(1) 编辑
摘要: 1、与Oracle并行技术一样,hive在执行mapreduce作业时也可以执行并行查询。针对于不同业务场景SQL语句的执行情况,有些场景下SQL的执行是需要分割成几段去执行的,而且期间并不全是存在依赖关系。默认情况下,hive只会一段一段的执行mapreduce任务。使用并行的好处在于可以让服务器可以同时去执行那些不想关的业务场景,比如:select deptno,count(1) from e... 阅读全文
posted @ 2017-09-27 13:16 ChavinKing 阅读(3836) 评论(0) 推荐(0) 编辑
摘要: 数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the rounded BIGINT value of a.返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)Returns a rounded to d decimal places.返回DOUBLE型d的保留n位小数... 阅读全文
posted @ 2017-09-27 13:14 ChavinKing 阅读(3642) 评论(0) 推荐(0) 编辑
摘要: 有时会碰到一些需求,查询分组后的最大值,最小值所在的整行记录或者分组后的top n行的记录,在一些别的数据库可能有窗口函数可以方面的查出来,但是MySQL没有这些函数,没有直接的方法可以查出来,可通过以下的方法来查询。准备工作测试表结构如下:root:test> show create table test1\G*************************** 1. row ********... 阅读全文
posted @ 2017-09-27 13:13 ChavinKing 阅读(361) 评论(0) 推荐(0) 编辑
摘要: Mysql启动报错如下:[root@db01 opt]# service mysqld startStarting MySQL.... ERROR! The server quit without updating PID file (/opt/mysql-5.6.24/data/mysql.pid).查看错误日志,发现问题根源在于下面红色部分:2017-08-26 01:45:44 8525 [... 阅读全文
posted @ 2017-09-27 13:13 ChavinKing 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 实例1:测试数据:create table nba(team varchar2(20),year number(4))SQL> select * from nba;TEAM YEAR-------------------- -----活塞 1990公牛 1991公牛 ... 阅读全文
posted @ 2017-09-27 13:12 ChavinKing 阅读(6825) 评论(1) 推荐(0) 编辑
摘要: 前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以hive场景下的设计为例)... 阅读全文
posted @ 2017-09-27 13:11 ChavinKing 阅读(878) 评论(0) 推荐(0) 编辑
摘要: [root@db02 scala-2.11.5]# spark-shell Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).Welcome to ____ __ / __/__ ___ _____/ /__ _\... 阅读全文
posted @ 2017-09-27 13:10 ChavinKing 阅读(1766) 评论(0) 推荐(0) 编辑
摘要: Python的每个新版本都会增加一些新的功能,或者对原来的功能作一些改动。有些改动是不兼容旧版本的,也就是在当前版本运行正常的代码,到下一个版本运行就可能不正常了。为了在低版本中可以使用高版本的新特性,我们可以在低版本中导入__futrure__模块。比如:python2.x中进行除法运算:>>> 1/20而要进行精确除法可以使用如下方式:>>> 1/2.00.5这在python中北称为地板除。而... 阅读全文
posted @ 2017-09-27 13:09 ChavinKing 阅读(460) 评论(0) 推荐(0) 编辑
摘要: 转自:http://blog.csdn.net/wguangliang/article/details/50167283 要求:按照课程分组,查找每个课程最高的两个成绩。 数据文件如下: 第一列no为学号,第二列course为课程,第三列score为分数 [plain] view plain cop 阅读全文
posted @ 2017-09-27 13:08 ChavinKing 阅读(3798) 评论(0) 推荐(0) 编辑
摘要: 解决方案如下:1.运行:cmd2.输入:DISKPART3.DISKPART> san4.DISKPART> san policy=onlineall5.DISKPART>list disk6.DISKPART> select disk 17.DISKPART>attributes disk clear readonly8.DISKPART>online disk 阅读全文
posted @ 2017-09-27 13:06 ChavinKing 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 层次查询是一种确定数据行间关系的一种操作手段。层次查询遍历的是一个树形结构。基本语法如下,以下语法嵌入到标准SQL中即可达到层次查询的目的: level,... ...【注释:伪列,用于select子句中,根据数据所处的层次结构自动层次编号】 connect by [nocycle] prior 连 阅读全文
posted @ 2017-09-27 13:06 ChavinKing 阅读(791) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 29 下一页
点击右上角即可分享
微信分享提示