04 2019 档案

摘要:一、查看HQL执行计划explain1、explainhive在执行的时候会把所对应的SQL语句都会转换成mapreduce代码执行,但是具体的MR执行信息我们怎样才能看出来呢?这里就用到了explain的关键字,他可详细的表示出在执行所对应的语句所对应的MR代码。语法格式如下。extended关键字可以更加详细的列举出代码的执行过程。Hive提供了一个EXPLAIN显示查询执行计划的命令。该语句... 阅读全文
posted @ 2019-04-28 16:22 米兰的小铁將 阅读(394) 评论(0) 推荐(0) 编辑
摘要:一、Fetch Task在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下所示:#在hive-default.xml.template默认配置中可知:SELECT STAR, FILTER on partition columns... 阅读全文
posted @ 2019-04-28 15:03 米兰的小铁將 阅读(164) 评论(0) 推荐(0) 编辑
摘要:一、file formatORCFile在HDP 2:更好的压缩,更好的性能:https://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/官方ORCfile介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManua... 阅读全文
posted @ 2019-04-26 14:21 米兰的小铁將 阅读(257) 评论(0) 推荐(0) 编辑
摘要:1、首先对虚拟机进行编辑设置 硬盘大小进行修改到80G;2、在Linux系统中查看磁盘大小此时并没有什么变化;3、上面没有变化的原因,是因为需要重新扫描存储设备的scsi总线;找到scsi磁盘编号,进行rescan:[root@slave1 ~]# ls /sys/class/scsi_disk/0:0:0:0[root@slave1 ~]# echo 1 >/sys/class/scsi_dis... 阅读全文
posted @ 2019-04-26 11:02 米兰的小铁將 阅读(739) 评论(0) 推荐(0) 编辑
摘要:一、label标签 <label> 标签为 input 元素定义标签(label)。 label 元素不会向用户呈现任何特殊的样式。不过,它为鼠标用户改善了可用性,因为如果用户点击 label 元素内的文本,则会切换到控件本身。 <label> 标签的 for 属性应该等于相关元素的 id 元素,以 阅读全文
posted @ 2019-04-26 00:33 米兰的小铁將 阅读(440) 评论(0) 推荐(0) 编辑
摘要:一、数据压缩1、数据压缩 数据量小 *本地磁盘,IO *减少网络IOHadoop作业通常是IO绑定的;压缩减少了跨网络传输的数据的大小;通过简单地启用压缩,可以提高总体作业性能;要压缩的数据必须支持可分割性;2、什么时候压缩?1、Use Compressed Map Input· Mapreduce jobs read input from HDFS· Compress if i... 阅读全文
posted @ 2019-04-25 15:47 米兰的小铁將 阅读(480) 评论(0) 推荐(0) 编辑
摘要:一、image #img标签包在a标签中可以加超链接#src="1.jpg":图片的路径#title="茶杯":当鼠标放在图片上时,显示的内容#style="height: 200px"; width="240px;" :指定图片的大小#alt="茶":当图片不存在时,显示的内容 二、列表1、ul标签#ul标签要与li标签一起用 a b ... 阅读全文
posted @ 2019-04-25 00:41 米兰的小铁將 阅读(377) 评论(0) 推荐(0) 编辑
摘要:一、超链接某度#target="_blank" :打开新的web页面二、锚第一章 第二章 第三章 第四章 第一章的内容 第二章的内容 第三章的内容 第四章的内容#id是唯一的;#在a标签中写上某标签的id,就会跳转过去; 阅读全文
posted @ 2019-04-25 00:01 米兰的小铁將 阅读(219) 评论(0) 推荐(0) 编辑
摘要:一、多行文本默认值二、下拉框1、单选2、多选 阅读全文
posted @ 2019-04-24 23:39 米兰的小铁將 阅读(264) 评论(0) 推荐(0) 编辑
摘要:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients一、HiveServer2、Beeline 1、HiveServer2HiveServer2是作为hive的一个服务启动的;#启动,也可以让它在后台启动[root@hadoop-senior hive-0.13.1]# bin/hiveserver22、beeli... 阅读全文
posted @ 2019-04-24 17:03 米兰的小铁將 阅读(1362) 评论(0) 推荐(0) 编辑
摘要:UDF:User Definition Function一、function#查看自带的函数hive (db_hive)> show functions;#查看一个函数的详细用法hive (db_hive)> desc function extended split;OKtab_namesplit(str, regex) - Splits str around occurances that ma... 阅读全文
posted @ 2019-04-24 16:05 米兰的小铁將 阅读(1855) 评论(0) 推荐(0) 编辑
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy一、order by对全局数据的排序,仅仅只有一个reduce;Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reduce... 阅读全文
posted @ 2019-04-24 11:29 米兰的小铁將 阅读(326) 评论(0) 推荐(0) 编辑
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport一、Export、ImportExport 导出,将Hive表中的数据,导出到外部Import 导入,将外部数据导入Hive表中二、Export1、语法EXPORT TABLE tablename TO 'export_target_p... 阅读全文
posted @ 2019-04-24 10:30 米兰的小铁將 阅读(603) 评论(0) 推荐(0) 编辑
摘要:一、查询语句https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select1、select语法SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY co... 阅读全文
posted @ 2019-04-24 10:00 米兰的小铁將 阅读(260) 评论(0) 推荐(0) 编辑
摘要:一、导入数据进hive表1、语法LOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename[PARTITION (partcol1=val1,partcol2=val2...)]##* 原始文件的存储位置 *在本地要写local *在HDFS不用写local* ‘filepath’ 文件路径要加引号* 对表的数... 阅读全文
posted @ 2019-04-23 13:51 米兰的小铁將 阅读(309) 评论(0) 推荐(0) 编辑
摘要:一、背景#########分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成更小的数据集。在查询时通过WHERE子句中的表达式来选择查询所需要的指定的分区,这样的查询效率会提高很多。#########在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫... 阅读全文
posted @ 2019-04-23 11:07 米兰的小铁將 阅读(187) 评论(0) 推荐(0) 编辑
摘要:一、外部表1、hive中表的类型管理表托管表(外部表)#内部表>内部表也称之为MANAGED_TABLE;>默认存储在/user/hive/warehouse下,也可以通过location指定;>删除表时,会删除表数据以及元数据;外部表>外部表称之为EXTERNAL_TABLE;>在创建表时可以自己指定目录位置(LOCATION);>删除表时,只会删除元数据不会删除表数据;Managed Tabl... 阅读全文
posted @ 2019-04-22 16:51 米兰的小铁將 阅读(1141) 评论(0) 推荐(1) 编辑
摘要:一、create table##员工表create table IF NOT EXISTS default.emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';##部... 阅读全文
posted @ 2019-04-22 15:38 米兰的小铁將 阅读(4196) 评论(0) 推荐(0) 编辑
摘要:一、hive Data Typeshttps://cwiki. apache. org/confluence/display/HiveLanguageManual+TypesNumeric Types · TINYINT(1-byte signed integer, from-128 to 127) · SMALLINT(2-byte signed integer, f... 阅读全文
posted @ 2019-04-22 14:57 米兰的小铁將 阅读(486) 评论(0) 推荐(0) 编辑
摘要:1、先关闭outlook,然后点击"运行"-->输入"regedit" #打开注册表 2、依次打开 “HKEY_CURRENT_USER\Software\Micosoft\Office\15.0\Outlook\Preferences” 3、在右侧列表右键新建一个名为 MaximumAttachm 阅读全文
posted @ 2019-04-22 11:47 米兰的小铁將 阅读(510) 评论(0) 推荐(0) 编辑
摘要:官网文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL一、create table1、官方字段##CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available ... 阅读全文
posted @ 2019-04-22 11:10 米兰的小铁將 阅读(546) 评论(0) 推荐(0) 编辑
摘要:一、hive 交互式命令参数#帮助[root@hadoop-senior hive-0.13.1]# bin/hive -hMissing argument for option: husage: hive -d,--define Variable subsitution to apply to hive com... 阅读全文
posted @ 2019-04-19 15:40 米兰的小铁將 阅读(402) 评论(0) 推荐(0) 编辑
摘要:一、Hive数据仓库位置配置1、#Hive数据仓库位置配置:默认位置(hive根目录): /user/hive/warehouse注意事项: *在仓库目录下,没有对默认的数据库default创建文件夹 *如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹,而且default数据库的目录不显示;2、在hive命令行执行hdfs命令:#删除一个文件hive (de... 阅读全文
posted @ 2019-04-19 15:12 米兰的小铁將 阅读(412) 评论(0) 推荐(0) 编辑
摘要:一、配置文件 1、重命名配置文件 2、配置log目录 2、命令行设置 阅读全文
posted @ 2019-04-19 14:00 米兰的小铁將 阅读(3039) 评论(0) 推荐(0) 编辑
摘要:一、基本命令和设置1、命令[root@hadoop-senior hive-0.13.1]# bin/hiveLogging initialized using configuration in jar:file:/opt/modules/hive-0.13.1/lib/hive-common-0.13.1.jar!/hive-log4j.propertieshive> show database... 阅读全文
posted @ 2019-04-19 11:33 米兰的小铁將 阅读(236) 评论(0) 推荐(0) 编辑
摘要:一、配置1、配置文件#创建配置文件[root@hadoop-senior ~]# cd /opt/modules/hive-0.13.1/conf/[root@hadoop-senior conf]# lshive-default.xml.template hive-env.sh hive-exec-log4j.properties.template hive-log4j.propertie... 阅读全文
posted @ 2019-04-19 10:44 米兰的小铁將 阅读(1405) 评论(0) 推荐(0) 编辑
摘要:一、HQL初步试用1、创建一个student表#创建一个student表hive> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';OKTime taken: 0.028 secondshive> show tables;OKbf_logstudentTime take... 阅读全文
posted @ 2019-04-18 18:25 米兰的小铁將 阅读(243) 评论(0) 推荐(0) 编辑
摘要:一、官网:http://hive.apache.org/下载:http://archive.apache.org/dist/hive/GitHub:https://github.com/apache/hive二、伪分布式部署前提是hadoop环境已经部署好了;我用的之前的hadoop伪分布式环境;1、准备安装包、解压[root@hadoop-senior softwares]# tar zxf a... 阅读全文
posted @ 2019-04-18 17:47 米兰的小铁將 阅读(263) 评论(0) 推荐(0) 编辑
摘要:一、hive是什么由Facebook开源用于解决海量结构化日志的数据统计;Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能;构建在Hadoop之上的数据仓库: 使用HQL作为查询接口; 使用HDFS存储; 使用MapReduce计算;本质是:将HQL转化成MapReduce程序灵活性和扩展性比较好:支持UDF,自定义存储格式... 阅读全文
posted @ 2019-04-18 16:49 米兰的小铁將 阅读(166) 评论(0) 推荐(0) 编辑
摘要:一、日志分析以nginx日志为例;1、日志字段含义:$remote addr客户端的ip地址(如果中间有代理服务器那么这里显示的ip就为代理服务器的ip地址)Sremote user用于记录远程客户端的用户名称(一般为“-”)Stime local用于记录访问时间和时区$request用于记录请求的ur1以及请求方法$status响应状态码Sbody bytes sent给客户端发送的文件主体内容... 阅读全文
posted @ 2019-04-18 15:17 米兰的小铁將 阅读(231) 评论(0) 推荐(0) 编辑
摘要:一、基于HDFS云盘存储系统如:某度网盘优点:*普通的商用机器 内存 磁盘*数据的安全性操作:*put get*rm mv*java api*filesystem核心:*HDFS集群二、极速秒传用户所上传文件的时候,将文件解析成hash码,去文件库中对比,如果有就不用传了(表面上会传),直接就是极速秒传,然后给用户显示一个指向那个文件的引用;三、hadoop三大发行版本1、Ap... 阅读全文
posted @ 2019-04-18 14:07 米兰的小铁將 阅读(661) 评论(0) 推荐(0) 编辑
摘要:一、ResourceManager HAResourceManager(RM)负责跟踪集群中的资源,以及调度应用程序(例如,MapReduce作业)。在Hadoop 2.4之前,ResourceManager是YARN集群中的单点故障。高可用性功能以Active / Standby ResourceManager对的形式添加冗余,以消除此单点故障。RM故障转移:ResourceManager HA... 阅读全文
posted @ 2019-04-18 13:30 米兰的小铁將 阅读(1015) 评论(0) 推荐(0) 编辑
摘要:一、hdfs federation hdfs federation即hdfs的联邦;可以理解为有多个namenode节点的hdfs集群; HA方案解决的是单点故障问题,而Fdederation解决的是单命名空间问题。 集群的全部元数据都存放在一个名称节点上,当集群足够大的时候,这个名称节点就成了性能 阅读全文
posted @ 2019-04-18 13:00 米兰的小铁將 阅读(194) 评论(0) 推荐(0) 编辑
摘要:一、说明从上一节可看出,虽然搭建好了HA架构,但是只能手动进行active与standby的切换;接下来看一下用zookeeper进行自动故障转移:#在启动HA之后,两个NameNode都是standby状态,可以利用zookeeper的选举功能,选出一个当Active#监控 ZKFC FailoverController二、配置1、hdfs-site.xml#”开启自动转移功能“,加... 阅读全文
posted @ 2019-04-18 10:46 米兰的小铁將 阅读(871) 评论(0) 推荐(0) 编辑
摘要:一、input标签与form表单 Title 说明:#是一个输入标签;表单使用表单标签 来设置,要提交内容必须有标签;# action="http://ip:port/index" :表示当前表单中的内容提交给哪个页面进行处理; method="post" :表... 阅读全文
posted @ 2019-04-18 00:50 米兰的小铁將 阅读(425) 评论(0) 推荐(0) 编辑
摘要:一、特殊符号的表示 #代指空格&lt; #代指,......#这玩意有很多,记也记不完,用的时候查一下即可;二、p和br标签:段落:换行,是一个自闭和标签HTML,HTML,HTML;HTML,HTML,HTML;三、h标签:标题 #最大...... #最小四、span标签hello:白板,只输入文本,不增加效果;白板:不自带效果,后续可以通过css来增加任意效果;五、所... 阅读全文
posted @ 2019-04-17 21:43 米兰的小铁將 阅读(236) 评论(0) 推荐(0) 编辑
摘要:一、Meta(metadata information)提供有关页面的元信息,例:页面编码、刷新、跳转、针对搜索引擎和更新频度的描述和关键词1.页面编码(告诉浏览器是什么编码)2.刷新和跳转3.关键词4.描述5.X-UA-Compatible微软的IE6是通过XP、Win2003等操作系统发布出来,作为占统治地位的桌面操作系统,也使得IE占据了通知地位,许多的网站开发的时候,就按照IE6的标准去开... 阅读全文
posted @ 2019-04-17 21:23 米兰的小铁將 阅读(169) 评论(0) 推荐(0) 编辑
摘要:一、HTML1、一套规则,浏览器认识的规则。2、开发者:学习Html规则开发后台程序:-写Html文件(充当模板的作用)******-数据库获取数据,然后替换到html文件的指定位置(Web框架)3、本地测试-找到文件路径,直接浏览器打开-pycharm打开测试4、编写Html文件-doctype对应关系-html标签,标签内部可以写属性===>只能有一N-注释:5、标签!DOCTYPE html... 阅读全文
posted @ 2019-04-17 21:17 米兰的小铁將 阅读(957) 评论(0) 推荐(0) 编辑
摘要:一、背景1、Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。对于只有一个NameNode的集群,若NameNode机器出现故障,则整个集群将无法使用,直到NameNode重新启动。NameNode主要在以下两个方面影响HDFS集群 >NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启 >NameNode 机器需要升级,包括软件、硬件... 阅读全文
posted @ 2019-04-17 18:34 米兰的小铁將 阅读(230) 评论(0) 推荐(0) 编辑
摘要:一、zookeeper概述 一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 提供一个简单的原语集合,以便于分布式应用可以在它之上构建更高层次的同步服务。 设计非常易于编程,它使用的是类似于文件系统那样的树形数据结构。 目的就是将分布式服务不再需要由于协作冲突而另外实现协作服务。 1 阅读全文
posted @ 2019-04-17 14:26 米兰的小铁將 阅读(200) 评论(0) 推荐(1) 编辑
摘要:一、HDFS1、初始化文件系统#master上[root@master hadoop-2.5.0]# pwd/opt/app/hadoop-2.5.0[root@master hadoop-2.5.0]# bin/hdfs namenode -format #最后几行看到successfully,代表成功2、启动#启动[root@master hadoop-2.5.0]# sbin/star... 阅读全文
posted @ 2019-04-17 12:57 米兰的小铁將 阅读(146) 评论(0) 推荐(0) 编辑
摘要:一、环境 192.168.1.130 master 192.168.1.131 slave1 192.168.1.132 slave2 所有主机: 1、关闭防火墙、selinux 2、配置hosts文件 3、yum -y install vim wget tree ntpdate lrzsz ope 阅读全文
posted @ 2019-04-16 18:17 米兰的小铁將 阅读(176) 评论(0) 推荐(1) 编辑
摘要:一、优化的点 Reduce Task Number Map Task输出压缩 Shuffle Phase 参数 map、reduce分配的虚拟CPU 二、Reduce Task Number Reduce Task 默认是一个; Reduce Task的数目也不是越多越好,实际中需要测试调整,以调整 阅读全文
posted @ 2019-04-16 14:58 米兰的小铁將 阅读(417) 评论(0) 推荐(0) 编辑
摘要:一、shuffle过程 总的来说: *分区 partitioner *排序 sort *copy (用户无法干涉) 拷贝 *分组 group 可设置 *压缩 compress *combiner map task端的Reduce 二、示例 阅读全文
posted @ 2019-04-16 14:25 米兰的小铁將 阅读(208) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。 我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。 阅读全文
posted @ 2019-04-16 11:29 米兰的小铁將 阅读(279) 评论(0) 推荐(0) 编辑
摘要:1、用Linux下的curl命令测量网络请求(分号是分隔符,可以是其他符号): -o:表示输出结果到/dev/null,-s表示去除状态信息,-w表示列出后面的参数的结果。 而且python也有一个pycurl模块; 2、curl命令支持的参数,有如下: time_connect:建立到服务器的 T 阅读全文
posted @ 2019-04-09 09:50 米兰的小铁將 阅读(7469) 评论(0) 推荐(0) 编辑
摘要:1、首先要有NppFTP插件,如果没有可以去下面链接或者其他网站下载: https://sourceforge.net/projects/nppftp/files/latest/download 主要目的就是要得到:NppFTP.dll 文件; 2、将NppFTP.dll文件放至Notepad++的 阅读全文
posted @ 2019-04-03 10:17 米兰的小铁將 阅读(535) 评论(0) 推荐(0) 编辑
摘要:一、chart的结构 (1)更改helm为阿里云仓库源 (2) 二、用helm生成基础chart示例性文件 (1) (2)启动本地仓库,并应用 三、EFK日志系统 (1)添加incubator源 阅读全文
posted @ 2019-04-02 14:20 米兰的小铁將 阅读(1010) 评论(0) 推荐(0) 编辑
摘要:一、介绍 Helm是Kubernetes的一个包管理工具,用来简化Kubernetes应用的部署和管理。可以把Helm比作CentOS的yum工具。 yum不光要解决包之间的依赖关系,还要提供具体的程序包。但是helm仓库里面只有配置清单文件,而没有镜像,镜像还是由镜像仓库来提供,比如hub.doc 阅读全文
posted @ 2019-04-01 11:15 米兰的小铁將 阅读(478) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示