随笔分类 - BigData
摘要:1、与Oracle并行技术一样,hive在执行mapreduce作业时也可以执行并行查询。针对于不同业务场景SQL语句的执行情况,有些场景下SQL的执行是需要分割成几段去执行的,而且期间并不全是存在依赖关系。默认情况下,hive只会一段一段的执行mapreduce任务。使用并行的好处在于可以让服务器可以同时去执行那些不想关的业务场景,比如:select deptno,count(1) from e...
阅读全文
摘要:数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the rounded BIGINT value of a.返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)Returns a rounded to d decimal places.返回DOUBLE型d的保留n位小数...
阅读全文
摘要:前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以hive场景下的设计为例)...
阅读全文
摘要:[root@db02 scala-2.11.5]# spark-shell Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).Welcome to ____ __ / __/__ ___ _____/ /__ _\...
阅读全文
摘要:参考文档:http://lxw1234.com/archives/2015/08/473.htm 一、元表结构 1、定义业务库原始订单表: drop table chavin.orders; CREATE TABLE orders ( orderid INT, createtime STRING,
阅读全文
摘要:一、hive中实现方法 基表: 组表: gt gid gname 1001 g1 1002 g2 1003 g3 create table g( gid int, gname string )row format delimited fields terminated by '\t' stored
阅读全文
摘要:今天将临时表里面的数据按照天分区插入到线上的表中去,出现了Hive创建的文件数大于100000个的情况,我的SQL如下:hive> insert overwrite table test partition(dt)> select * from iteblog_tmp;iteblog_tmp表里面一共有570多G的数据,一共可以分成76个分区,SQL运行的时候创建了2163个Mapper,0个...
阅读全文
摘要:以下配置文件涵盖了hadoop、hive、hbase开发支持库的配置。 仅需针对maven工程pom.xml文件做相应更改就可以自动生成hadoop开发支持库。 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourc
阅读全文
摘要:1、下载eclipse:eclipse-SDK-4.5-win32-x86_64.zip 下载地址: http://archive.eclipse.org/eclipse/downloads/drops4/R-4.5-201506032000/eclipse-SDK-4.5-win32-x86_64
阅读全文
摘要:1、下载maven安装包:apache-maven-3.3.9-bin.zip 下载地址: http://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.zip 2、解压缩maven安装文件到D盘
阅读全文
摘要:解压缩hbase二进制安装文件到/opt目录下: #tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/ 编辑配置文件,这里仅配置数据目录,如果不指定数据目录,默认hbase数据存储在/tmp目录下: #vim conf/hbase-si
阅读全文
摘要:归档hive历史分区不会减少hdfs存储空间,但是可以有效减轻hadoop namenode的压力,尤其在于小文件比较多的情况下。 $mkdir $HIVE_HOME/auxlib $ cp /opt/cdh-5.3.6/hadoop-2.5.0/share/hadoop/tools/lib/had
阅读全文
摘要:首先看一下hive cli工具对于变量的定义规定的几项功能: $ bin/hive -h usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --defi
阅读全文
摘要:hive仓库位置由以下参数决定,默认位置/user/hive/warehouse: <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> hive中元数
阅读全文
摘要:hive启动hwi: ./hive --service hwi ls: cannot access /opt/cdh-5.3.6/hive-0.13.1/lib/hive-hwi-*.war: No such file or directory 17/05/12 09:29:47 INFO hwi.
阅读全文
摘要:统计文件信息: $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input hadoop spark spark hadoop oracle mysql postgresql postg
阅读全文
摘要:Hive uses log4j for logging. By default logs are not emitted to the console by the CLI. The default logging level is WARN for Hive releases prior to 0
阅读全文
摘要:1、MovieLens User Ratings First, create a table with tab-delimited text file format: 首先,创建一个通过tab分隔的表: CREATE TABLE u_data ( userid INT, movieid INT, r
阅读全文
摘要:hive分析nginx日志一:http://www.cnblogs.com/wcwen1990/p/7066230.html hive分析nginx日志二:http://www.cnblogs.com/wcwen1990/p/7074298.html 接着来看: 1、首先编写UDF,如下: --使用
阅读全文
摘要:本文继成上一篇通过hive分析nginx日志文章,详情参考下面链接: http://www.cnblogs.com/wcwen1990/p/7066230.html 接着来: 创建业务子表: drop table if exists chavin.nginx_access_log_comm; cre
阅读全文