随笔分类 -  BigData

摘要:以下案例是使用hive分析nginx的访问日志案例,其中字段分隔通过正则表达式匹配,具体步骤如下: 日志格式: 192.168.5.139 - - [08/Jun/2017:17:09:12 +0800] "GET //oportal/static/ui/layer/skin/default/ico 阅读全文
posted @ 2017-06-22 17:32 ChavinKing 阅读(1360) 评论(0) 推荐(0) 编辑
摘要:spark监控应用方式: 1)在运行过程中可以通过web Ui:4040端口进行监控 2)任务运行完成想要监控spark,需要启动日志聚集功能 开启日志聚集功能方法: 编辑conf/spark-env.sh文件,在其中加入如下部分: SPARK_HISTORY_OPTS=-Dspark.histor 阅读全文
posted @ 2017-05-26 13:24 ChavinKing 阅读(2871) 评论(0) 推荐(0) 编辑
摘要:组织数据形式: aa 11 bb 11 cc 34 aa 22 bb 67 cc 29 aa 36 bb 33 cc 30 aa 42 bb 44 cc 49 需求: 1、对上述数据按key值进行分组 2、对分组后的值进行排序 3、截取分组后值得top 3位以key-value形式返回结果 答案如下 阅读全文
posted @ 2017-05-24 13:12 ChavinKing 阅读(1391) 评论(0) 推荐(0) 编辑
摘要:首先提一下spark rdd的五大核心特性: 1、rdd由一系列的分片组成,比如说128m一片,类似于hadoop中的split2、每一个分区都有一个函数去迭代/运行/计算3、一系列的依赖,比如:rdda转换为rddb,rddb转换为rddc,那么rddc依赖于rddb,rddb依赖于rdda。 l 阅读全文
posted @ 2017-05-23 09:47 ChavinKing 阅读(1564) 评论(0) 推荐(0) 编辑
摘要:Spark运行的4中模式: Local Standalone Yarn Mesos 一、安装spark前期准备 1、安装java $ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/ export JAVA_HOME=/opt/ser 阅读全文
posted @ 2017-05-22 15:02 ChavinKing 阅读(8215) 评论(0) 推荐(0) 编辑
摘要:原文连接:http://spark.apache.org/docs/1.5.0/building-spark.html · Building with build/mvn · Building a Runnable Distribution · Setting up Maven’s Memory U 阅读全文
posted @ 2017-05-16 15:20 ChavinKing 阅读(537) 评论(0) 推荐(0) 编辑
摘要:通过cloudera manager 5.x添加spark服务,在创建服务过程中,发现spark服务创建失败,可以通过控制台错误输出看到如下日志信息: + perl -pi -e 's#{{CMF_CONF_DIR}}#/etc/spark/conf.cloudera.spark_on_yarn/y 阅读全文
posted @ 2017-05-15 17:47 ChavinKing 阅读(1446) 评论(0) 推荐(0) 编辑
摘要:一、定义 ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。和RCFile格式相比,ORC File格式有以下优点:(1)、每个task只输... 阅读全文
posted @ 2017-05-14 20:58 ChavinKing 阅读(1887) 评论(0) 推荐(0) 编辑
摘要:在这里解释一下select语法中的order by、sort by、distribute by、cluster by、order by语法。 一、order by语法 在hiveQL中Order by语法类似于sql语言中的order by语法。 colOrder: ( ASC | DESC ) c 阅读全文
posted @ 2017-05-12 17:58 ChavinKing 阅读(14914) 评论(2) 推荐(1) 编辑
摘要:在hive-0.8.0后引入了import/export命令。 Export命令可以导出一张表或分区的数据和元数据信息到一个输出位置,并且导出数据可以被移动到另一个hadoop集群或hive实例,并且可以通过import命令导入数据。 当导出一个分区表,原始数据可能在hdfs的不同位置,export 阅读全文
posted @ 2017-05-12 15:50 ChavinKing 阅读(11949) 评论(0) 推荐(2) 编辑
摘要:官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最小,最大优点可实现全离线安装,而且重装什么的都非常方便。后期的集群统一包升级也非常好。这也是 阅读全文
posted @ 2017-05-11 15:26 ChavinKing 阅读(3950) 评论(0) 推荐(0) 编辑
摘要:首次安装hive-2.1.0,通过bin/hive登录hive shell命令行,报错如下: [hadoop@db03 hive-2.1.0]$ bin/hive which: no hbase in (/opt/service/jdk1.7.0_67/bin:/opt/service/jdk1.7 阅读全文
posted @ 2017-05-08 12:08 ChavinKing 阅读(5396) 评论(0) 推荐(1) 编辑
摘要:CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_valu 阅读全文
posted @ 2017-05-02 17:01 ChavinKing 阅读(624) 评论(0) 推荐(0) 编辑
摘要:1、上传hive、mysql、mysql driver到服务器/mnt目录下: [root@chavin mnt]# ll mysql-5.6.24-linux-glibc2.5-x86_64.tar.gz apache-hive-0.13.1-bin.tar.gz mysql-connector- 阅读全文
posted @ 2017-04-24 15:50 ChavinKing 阅读(340) 评论(0) 推荐(0) 编辑
摘要:1、什么是hive Hive是一个基于Hadoop的数据仓库,可以将结构化数据映射成一张表,并提供类SQL的功能,最初由Facebook提供,使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层,设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据,2008年 阅读全文
posted @ 2017-04-24 12:54 ChavinKing 阅读(1986) 评论(0) 推荐(0) 编辑
摘要:Overview(概述) Centralized cache management in HDFS is an explicit caching mechanism that allows users to specify paths to be cached by HDFS. The NameNode will communicate with DataNodes that have the ... 阅读全文
posted @ 2017-04-23 15:20 ChavinKing 阅读(337) 评论(0) 推荐(0) 编辑
摘要:Introduction(说明) HFTP is a Hadoop filesystem implementation that lets you read data from a remote Hadoop HDFS cluster. The reads are done via HTTP, an 阅读全文
posted @ 2017-04-23 14:52 ChavinKing 阅读(1538) 评论(0) 推荐(0) 编辑
摘要:This guide provides an overview of the HDFS Federation feature and how to configure and manage the federated cluster.这篇文档包好了hdfs federation特点的概述和如何配置并 阅读全文
posted @ 2017-04-22 19:31 ChavinKing 阅读(596) 评论(0) 推荐(0) 编辑
摘要:Overview HDFS Snapshots are read-only point-in-time copies of the file system. Snapshots can be taken on a subtree of the file system or the entire fi 阅读全文
posted @ 2017-04-22 19:30 ChavinKing 阅读(970) 评论(0) 推荐(0) 编辑
摘要:一、主机服务规划: db01 db02 db03 db04 db05 namenode namenode journalnode journalnode journalnode datanode datanode datanode datanode datanode zookeeper zookee 阅读全文
posted @ 2017-04-21 19:45 ChavinKing 阅读(807) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示