BigData - 随笔分类(第3页) - ChavinKing

hive优化之并行执行任务

摘要：1、与Oracle并行技术一样，hive在执行mapreduce作业时也可以执行并行查询。针对于不同业务场景SQL语句的执行情况，有些场景下SQL的执行是需要分割成几段去执行的，而且期间并不全是存在依赖关系。默认情况下，hive只会一段一段的执行mapreduce任务。使用并行的好处在于可以让服务器可以同时去执行那些不想关的业务场景，比如：select deptno,count(1) from e... 阅读全文

posted @ 2017-09-27 13:16 ChavinKing 阅读(3836) 评论(0) 推荐(0) 编辑

Hive函数大全

摘要：数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the rounded BIGINT value of a.返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)Returns a rounded to d decimal places.返回DOUBLE型d的保留n位小数... 阅读全文

posted @ 2017-09-27 13:14 ChavinKing 阅读(3642) 评论(0) 推荐(0) 编辑

hive拉链表

摘要：前言本文将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成：先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以hive场景下的设计为例）... 阅读全文

posted @ 2017-09-27 13:11 ChavinKing 阅读(877) 评论(0) 推荐(0) 编辑

cm5.9.2安装spark启动报错解决办法

摘要：[root@db02 scala-2.11.5]# spark-shell Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel).Welcome to ____ __ / __/__ ___ _____/ /__ _\... 阅读全文

posted @ 2017-09-27 13:10 ChavinKing 阅读(1766) 评论(0) 推荐(0) 编辑

拉链表-增量更新方法一

摘要：参考文档：http://lxw1234.com/archives/2015/08/473.htm 一、元表结构 1、定义业务库原始订单表： drop table chavin.orders; CREATE TABLE orders ( orderid INT, createtime STRING, 阅读全文

posted @ 2017-09-27 13:05 ChavinKing 阅读(2925) 评论(0) 推荐(0) 编辑

一道hive SQL面试题

摘要：一、hive中实现方法基表：组表： gt gid gname 1001 g1 1002 g2 1003 g3 create table g( gid int, gname string )row format delimited fields terminated by '\t' stored 阅读全文

posted @ 2017-09-27 13:04 ChavinKing 阅读(5203) 评论(0) 推荐(0) 编辑

Hive：解决Hive创建文件数过多的问题

摘要：今天将临时表里面的数据按照天分区插入到线上的表中去，出现了Hive创建的文件数大于100000个的情况，我的SQL如下：hive> insert overwrite table test partition(dt)> select * from iteblog_tmp;iteblog_tmp表里面一共有570多G的数据，一共可以分成76个分区，SQL运行的时候创建了2163个Mapper，0个... 阅读全文

posted @ 2017-09-27 09:47 ChavinKing 阅读(5735) 评论(0) 推荐(0) 编辑

maven工程之pom模板（hadoop、hive、hbase）

摘要：以下配置文件涵盖了hadoop、hive、hbase开发支持库的配置。仅需针对maven工程pom.xml文件做相应更改就可以自动生成hadoop开发支持库。 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourc 阅读全文

posted @ 2017-07-24 09:41 ChavinKing 阅读(4309) 评论(0) 推荐(0) 编辑

Hadoop开发环境配置2-eclipse集成maven插件

摘要：1、下载eclipse：eclipse-SDK-4.5-win32-x86_64.zip 下载地址： http://archive.eclipse.org/eclipse/downloads/drops4/R-4.5-201506032000/eclipse-SDK-4.5-win32-x86_64 阅读全文

posted @ 2017-07-24 09:36 ChavinKing 阅读(524) 评论(0) 推荐(0) 编辑

Hadoop开发环境配置1-maven安装配置

摘要：1、下载maven安装包：apache-maven-3.3.9-bin.zip 下载地址： http://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.zip 2、解压缩maven安装文件到D盘阅读全文

posted @ 2017-07-24 09:33 ChavinKing 阅读(1421) 评论(0) 推荐(0) 编辑

hbase本地模式-安装及基本测试

摘要：解压缩hbase二进制安装文件到/opt目录下： #tar -zxvf hbase-0.98.6-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/ 编辑配置文件，这里仅配置数据目录，如果不指定数据目录，默认hbase数据存储在/tmp目录下： #vim conf/hbase-si 阅读全文

posted @ 2017-07-19 14:00 ChavinKing 阅读(2837) 评论(0) 推荐(1) 编辑

hive归档分区

摘要：归档hive历史分区不会减少hdfs存储空间，但是可以有效减轻hadoop namenode的压力，尤其在于小文件比较多的情况下。 $mkdir $HIVE_HOME/auxlib $ cp /opt/cdh-5.3.6/hadoop-2.5.0/share/hadoop/tools/lib/had 阅读全文

posted @ 2017-07-16 20:42 ChavinKing 阅读(1451) 评论(0) 推荐(0) 编辑

Hive之变量和属性

摘要：首先看一下hive cli工具对于变量的定义规定的几项功能： $ bin/hive -h usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --defi 阅读全文

posted @ 2017-07-12 17:56 ChavinKing 阅读(2145) 评论(0) 推荐(0) 编辑

hive中的几个参数：元数据配置、仓库位置、打印表字段相关参数

摘要：hive仓库位置由以下参数决定，默认位置/user/hive/warehouse： <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> </property> hive中元数阅读全文

posted @ 2017-07-04 18:13 ChavinKing 阅读(498) 评论(0) 推荐(0) 编辑

启用hive hwi方法

摘要：hive启动hwi： ./hive --service hwi ls: cannot access /opt/cdh-5.3.6/hive-0.13.1/lib/hive-hwi-*.war: No such file or directory 17/05/12 09:29:47 INFO hwi. 阅读全文

posted @ 2017-07-04 17:49 ChavinKing 阅读(850) 评论(0) 推荐(0) 编辑

hive进行词频统计

摘要：统计文件信息： $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input hadoop spark spark hadoop oracle mysql postgresql postg 阅读全文

posted @ 2017-07-04 12:39 ChavinKing 阅读(3616) 评论(0) 推荐(0) 编辑

Hive日志（Hive Logging）--hive GettingStarted翻译

摘要：Hive uses log4j for logging. By default logs are not emitted to the console by the CLI. The default logging level is WARN for Hive releases prior to 0 阅读全文

posted @ 2017-06-29 16:11 ChavinKing 阅读(7319) 评论(0) 推荐(0) 编辑

简单示例用例(Simple Example Use Cases)--hive GettingStarted用例翻译

摘要：1、MovieLens User Ratings First, create a table with tab-delimited text file format: 首先，创建一个通过tab分隔的表： CREATE TABLE u_data ( userid INT, movieid INT, r 阅读全文

posted @ 2017-06-26 23:13 ChavinKing 阅读(312) 评论(0) 推荐(0) 编辑

hive分析nginx日志之UDF清洗数据

摘要：hive分析nginx日志一：http://www.cnblogs.com/wcwen1990/p/7066230.html hive分析nginx日志二：http://www.cnblogs.com/wcwen1990/p/7074298.html 接着来看： 1、首先编写UDF，如下： --使用阅读全文

posted @ 2017-06-26 14:09 ChavinKing 阅读(1967) 评论(0) 推荐(0) 编辑

hive中创建子表并插入数据过程初始化MR报错解决方法

摘要：本文继成上一篇通过hive分析nginx日志文章，详情参考下面链接： http://www.cnblogs.com/wcwen1990/p/7066230.html 接着来：创建业务子表： drop table if exists chavin.nginx_access_log_comm; cre 阅读全文

posted @ 2017-06-24 19:54 ChavinKing 阅读(3482) 评论(0) 推荐(0) 编辑

随笔分类 - BigData

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (481)

相册 (1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论