2019 年 4月随笔档案 - 米兰的小铁將

3.11-3.14 Hive 企业使用优化2

摘要：一、查看HQL执行计划explain1、explainhive在执行的时候会把所对应的SQL语句都会转换成mapreduce代码执行，但是具体的MR执行信息我们怎样才能看出来呢？这里就用到了explain的关键字，他可详细的表示出在执行所对应的语句所对应的MR代码。语法格式如下。extended关键字可以更加详细的列举出代码的执行过程。Hive提供了一个EXPLAIN显示查询执行计划的命令。该语句... 阅读全文

posted @ 2019-04-28 16:22 米兰的小铁將阅读(395) 评论(0) 推荐(0) 编辑

3.7-3.10 Hive 企业使用优化1

摘要：一、Fetch Task在执行hive代码的时候，一条简单的命令大部分都会转换成为mr代码在后台执行，但是有时候我们仅仅只是想获取一部分数据而已，仅仅是获取数据，还需要转化成为mr去执行吗？那个也太浪费时间和内存啦，所以有一个hive的配置如下所示：#在hive-default.xml.template默认配置中可知：SELECT STAR, FILTER on partition columns... 阅读全文

posted @ 2019-04-28 15:03 米兰的小铁將阅读(164) 评论(0) 推荐(0) 编辑

3.4-3.6 Hive Storage Format

摘要：一、file formatORCFile在HDP 2:更好的压缩，更好的性能：https://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/官方ORCfile介绍：https://cwiki.apache.org/confluence/display/Hive/LanguageManua... 阅读全文

posted @ 2019-04-26 14:21 米兰的小铁將阅读(259) 评论(0) 推荐(0) 编辑

ESXI中 Linux虚拟机不重启扩展磁盘

摘要：1、首先对虚拟机进行编辑设置硬盘大小进行修改到80G；2、在Linux系统中查看磁盘大小此时并没有什么变化；3、上面没有变化的原因，是因为需要重新扫描存储设备的scsi总线；找到scsi磁盘编号，进行rescan：[root@slave1 ~]# ls /sys/class/scsi_disk/0:0:0:0[root@slave1 ~]# echo 1 >/sys/class/scsi_dis... 阅读全文

posted @ 2019-04-26 11:02 米兰的小铁將阅读(740) 评论(0) 推荐(0) 编辑

8、html的body内标签之fieldset标签和label标签

摘要：一、label标签 <label> 标签为 input 元素定义标签（label）。 label 元素不会向用户呈现任何特殊的样式。不过，它为鼠标用户改善了可用性，因为如果用户点击 label 元素内的文本，则会切换到控件本身。 <label> 标签的 for 属性应该等于相关元素的 id 元素，以阅读全文

posted @ 2019-04-26 00:33 米兰的小铁將阅读(441) 评论(0) 推荐(0) 编辑

3.2-3.3 Hive中常见的数据压缩

摘要：一、数据压缩1、数据压缩数据量小 *本地磁盘，IO *减少网络IOHadoop作业通常是IO绑定的;压缩减少了跨网络传输的数据的大小;通过简单地启用压缩，可以提高总体作业性能;要压缩的数据必须支持可分割性；2、什么时候压缩？1、Use Compressed Map Input· Mapreduce jobs read input from HDFS· Compress if i... 阅读全文

posted @ 2019-04-25 15:47 米兰的小铁將阅读(481) 评论(0) 推荐(0) 编辑

7、html的body内标签之图片及表格

摘要：一、image #img标签包在a标签中可以加超链接#src="1.jpg"：图片的路径#title="茶杯"：当鼠标放在图片上时，显示的内容#style="height: 200px"; width="240px;" ：指定图片的大小#alt="茶"：当图片不存在时，显示的内容二、列表1、ul标签#ul标签要与li标签一起用 a b ... 阅读全文

posted @ 2019-04-25 00:41 米兰的小铁將阅读(377) 评论(0) 推荐(0) 编辑

6、html的body内标签之超链接

摘要：一、超链接某度#target="_blank" ：打开新的web页面二、锚第一章第二章第三章第四章第一章的内容第二章的内容第三章的内容第四章的内容#id是唯一的；#在a标签中写上某标签的id,就会跳转过去；阅读全文

posted @ 2019-04-25 00:01 米兰的小铁將阅读(221) 评论(0) 推荐(0) 编辑

5、html的body内标签之多行文本及下拉框

摘要：一、多行文本默认值二、下拉框1、单选2、多选阅读全文

posted @ 2019-04-24 23:39 米兰的小铁將阅读(264) 评论(0) 推荐(0) 编辑

3.1 HiveServer2.Beeline JDBC使用

摘要：https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients一、HiveServer2、Beeline 1、HiveServer2HiveServer2是作为hive的一个服务启动的；#启动，也可以让它在后台启动[root@hadoop-senior hive-0.13.1]# bin/hiveserver22、beeli... 阅读全文

posted @ 2019-04-24 17:03 米兰的小铁將阅读(1364) 评论(0) 推荐(0) 编辑

2.13 Hive中自带Function使用及自定义UDF编程

摘要：UDF：User Definition Function一、function#查看自带的函数hive (db_hive)> show functions;#查看一个函数的详细用法hive (db_hive)> desc function extended split;OKtab_namesplit(str, regex) - Splits str around occurances that ma... 阅读全文

posted @ 2019-04-24 16:05 米兰的小铁將阅读(1860) 评论(0) 推荐(0) 编辑

2.12 Hivet中order by，sort by、distribute by和cluster by

摘要：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy一、order by对全局数据的排序，仅仅只有一个reduce；Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reduce... 阅读全文

posted @ 2019-04-24 11:29 米兰的小铁將阅读(329) 评论(0) 推荐(0) 编辑

2.11 Hive中数据导入导出Import和Export使用

摘要：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport一、Export、ImportExport 导出，将Hive表中的数据，导出到外部Import 导入，将外部数据导入Hive表中二、Export1、语法EXPORT TABLE tablename TO 'export_target_p... 阅读全文

posted @ 2019-04-24 10:30 米兰的小铁將阅读(607) 评论(0) 推荐(0) 编辑

2.9-2.10 hive中常见查询

摘要：一、查询语句https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select1、select语法SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY co... 阅读全文

posted @ 2019-04-24 10:00 米兰的小铁將阅读(261) 评论(0) 推荐(0) 编辑

2.7-2.8 导入、导出数据(进/出)hive表的方式

摘要：一、导入数据进hive表1、语法LOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename[PARTITION (partcol1=val1,partcol2=val2...)]##* 原始文件的存储位置 *在本地要写local *在HDFS不用写local* ‘filepath’ 文件路径要加引号* 对表的数... 阅读全文

posted @ 2019-04-23 13:51 米兰的小铁將阅读(309) 评论(0) 推荐(0) 编辑

2.6 hive分区表

摘要：一、背景#########分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成更小的数据集。在查询时通过WHERE子句中的表达式来选择查询所需要的指定的分区，这样的查询效率会提高很多。#########在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫... 阅读全文

posted @ 2019-04-23 11:07 米兰的小铁將阅读(189) 评论(0) 推荐(0) 编辑

2.5 Hive中外部表的讲解

摘要：一、外部表1、hive中表的类型管理表托管表(外部表)#内部表>内部表也称之为MANAGED_TABLE；>默认存储在/user/hive/warehouse下，也可以通过location指定；>删除表时，会删除表数据以及元数据；外部表>外部表称之为EXTERNAL_TABLE；>在创建表时可以自己指定目录位置（LOCATION）；>删除表时，只会删除元数据不会删除表数据；Managed Tabl... 阅读全文

posted @ 2019-04-22 16:51 米兰的小铁將阅读(1146) 评论(0) 推荐(1) 编辑

2.4 hive创建表实例讲解

摘要：一、create table##员工表create table IF NOT EXISTS default.emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';##部... 阅读全文

posted @ 2019-04-22 15:38 米兰的小铁將阅读(4202) 评论(0) 推荐(0) 编辑

2.3 Hive的数据类型讲解及实际项目中如何使用python脚本对数据进行ETL

摘要：一、hive Data Typeshttps://cwiki. apache. org/confluence/display/HiveLanguageManual+TypesNumeric Types · TINYINT(1-byte signed integer, from-128 to 127) · SMALLINT(2-byte signed integer, f... 阅读全文

posted @ 2019-04-22 14:57 米兰的小铁將阅读(488) 评论(0) 推荐(0) 编辑

outlook2013 解决附件大小限制

摘要：1、先关闭outlook，然后点击"运行"-->输入"regedit" #打开注册表 2、依次打开 “HKEY_CURRENT_USER\Software\Micosoft\Office\15.0\Outlook\Preferences” 3、在右侧列表右键新建一个名为 MaximumAttachm 阅读全文

posted @ 2019-04-22 11:47 米兰的小铁將阅读(516) 评论(0) 推荐(0) 编辑

2.1-2.2 Hive 中数据库(Table、Database)基本操作

摘要：官网文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL一、create table1、官方字段##CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPORARY available ... 阅读全文

posted @ 2019-04-22 11:10 米兰的小铁將阅读(546) 评论(0) 推荐(0) 编辑

1.10-1.11 hive交互式命令讲解

摘要：一、hive 交互式命令参数#帮助[root@hadoop-senior hive-0.13.1]# bin/hive -hMissing argument for option: husage: hive -d,--define Variable subsitution to apply to hive com... 阅读全文

posted @ 2019-04-19 15:40 米兰的小铁將阅读(402) 评论(0) 推荐(0) 编辑

1.9 Hive常见属性配置

摘要：一、Hive数据仓库位置配置1、#Hive数据仓库位置配置：默认位置(hive根目录)： /user/hive/warehouse注意事项： *在仓库目录下，没有对默认的数据库default创建文件夹 *如果某张表属于default数据库，直接在数据仓库目录下创建一个文件夹，而且default数据库的目录不显示；2、在hive命令行执行hdfs命令：#删除一个文件hive (de... 阅读全文

posted @ 2019-04-19 15:12 米兰的小铁將阅读(412) 评论(0) 推荐(0) 编辑

1.8 Hive运行日志配置和查看

摘要：一、配置文件 1、重命名配置文件 2、配置log目录 2、命令行设置阅读全文

posted @ 2019-04-19 14:00 米兰的小铁將阅读(3044) 评论(0) 推荐(0) 编辑

1.7 hive基本操作

摘要：一、基本命令和设置1、命令[root@hadoop-senior hive-0.13.1]# bin/hiveLogging initialized using configuration in jar:file:/opt/modules/hive-0.13.1/lib/hive-common-0.13.1.jar!/hive-log4j.propertieshive> show database... 阅读全文

posted @ 2019-04-19 11:33 米兰的小铁將阅读(237) 评论(0) 推荐(0) 编辑

1.6 Hive配置metastore

摘要：一、配置1、配置文件#创建配置文件[root@hadoop-senior ~]# cd /opt/modules/hive-0.13.1/conf/[root@hadoop-senior conf]# lshive-default.xml.template hive-env.sh hive-exec-log4j.properties.template hive-log4j.propertie... 阅读全文

posted @ 2019-04-19 10:44 米兰的小铁將阅读(1405) 评论(0) 推荐(0) 编辑

1.5 Hive初步使用和安装MySQL

摘要：一、HQL初步试用1、创建一个student表#创建一个student表hive> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';OKTime taken: 0.028 secondshive> show tables;OKbf_logstudentTime take... 阅读全文

posted @ 2019-04-18 18:25 米兰的小铁將阅读(244) 评论(0) 推荐(0) 编辑

1.3-1.4 hive环境部署

摘要：一、官网：http://hive.apache.org/下载：http://archive.apache.org/dist/hive/GitHub：https://github.com/apache/hive二、伪分布式部署前提是hadoop环境已经部署好了；我用的之前的hadoop伪分布式环境；1、准备安装包、解压[root@hadoop-senior softwares]# tar zxf a... 阅读全文

posted @ 2019-04-18 17:47 米兰的小铁將阅读(265) 评论(0) 推荐(0) 编辑

1.1- 1.2 hive入门

摘要：一、hive是什么由Facebook开源用于解决海量结构化日志的数据统计；Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能；构建在Hadoop之上的数据仓库：使用HQL作为查询接口；使用HDFS存储；使用MapReduce计算；本质是：将HQL转化成MapReduce程序灵活性和扩展性比较好：支持UDF，自定义存储格式... 阅读全文

posted @ 2019-04-18 16:49 米兰的小铁將阅读(168) 评论(0) 推荐(0) 编辑

4.3-4.6 项目实战之日志数据收集、处理、分析

摘要：一、日志分析以nginx日志为例；1、日志字段含义：$remote addr客户端的ip地址（如果中间有代理服务器那么这里显示的ip就为代理服务器的ip地址）Sremote user用于记录远程客户端的用户名称（一般为“-”）Stime local用于记录访问时间和时区$request用于记录请求的ur1以及请求方法$status响应状态码Sbody bytes sent给客户端发送的文件主体内容... 阅读全文

posted @ 2019-04-18 15:17 米兰的小铁將阅读(231) 评论(0) 推荐(0) 编辑

4.1-4.2 基于HDFS云盘存储系统分析及hadoop发行版本

摘要：一、基于HDFS云盘存储系统如：某度网盘优点：*普通的商用机器内存磁盘*数据的安全性操作：*put get*rm mv*java api*filesystem核心：*HDFS集群二、极速秒传用户所上传文件的时候，将文件解析成hash码，去文件库中对比，如果有就不用传了(表面上会传)，直接就是极速秒传，然后给用户显示一个指向那个文件的引用；三、hadoop三大发行版本1、Ap... 阅读全文

posted @ 2019-04-18 14:07 米兰的小铁將阅读(662) 评论(0) 推荐(0) 编辑

3.19 YARN HA架构及(RM/NM) Restart讲解

摘要：一、ResourceManager HAResourceManager（RM）负责跟踪集群中的资源，以及调度应用程序（例如，MapReduce作业）。在Hadoop 2.4之前，ResourceManager是YARN集群中的单点故障。高可用性功能以Active / Standby ResourceManager对的形式添加冗余，以消除此单点故障。RM故障转移：ResourceManager HA... 阅读全文

posted @ 2019-04-18 13:30 米兰的小铁將阅读(1017) 评论(0) 推荐(0) 编辑

3.17-3.18 HDFS2.x中高级特性讲解

摘要：一、hdfs federation hdfs federation即hdfs的联邦；可以理解为有多个namenode节点的hdfs集群； HA方案解决的是单点故障问题，而Fdederation解决的是单命名空间问题。集群的全部元数据都存放在一个名称节点上，当集群足够大的时候，这个名称节点就成了性能阅读全文

posted @ 2019-04-18 13:00 米兰的小铁將阅读(196) 评论(0) 推荐(0) 编辑

3.16 使用Zookeeper对HDFS HA配置自动故障转移及测试

摘要：一、说明从上一节可看出，虽然搭建好了HA架构，但是只能手动进行active与standby的切换；接下来看一下用zookeeper进行自动故障转移：#在启动HA之后，两个NameNode都是standby状态，可以利用zookeeper的选举功能，选出一个当Active#监控 ZKFC FailoverController二、配置1、hdfs-site.xml#”开启自动转移功能“，加... 阅读全文

posted @ 2019-04-18 10:46 米兰的小铁將阅读(873) 评论(0) 推荐(0) 编辑

4、html的body内标签之input系列

摘要：一、input标签与form表单 Title 说明：#是一个输入标签；表单使用表单标签来设置，要提交内容必须有标签；# action="http://ip:port/index" ：表示当前表单中的内容提交给哪个页面进行处理； method="post" ：表... 阅读全文

posted @ 2019-04-18 00:50 米兰的小铁將阅读(425) 评论(0) 推荐(0) 编辑

3、HTML的body内标签1

摘要：一、特殊符号的表示 #代指空格< #代指，......#这玩意有很多，记也记不完，用的时候查一下即可；二、p和br标签：段落：换行，是一个自闭和标签HTML，HTML，HTML；HTML，HTML，HTML；三、h标签：标题 #最大...... #最小四、span标签hello：白板，只输入文本，不增加效果；白板：不自带效果，后续可以通过css来增加任意效果；五、所... 阅读全文

posted @ 2019-04-17 21:43 米兰的小铁將阅读(238) 评论(0) 推荐(0) 编辑

2、HTML的head内标签

摘要：一、Meta（metadata information）提供有关页面的元信息，例：页面编码、刷新、跳转、针对搜索引擎和更新频度的描述和关键词1.页面编码（告诉浏览器是什么编码）2.刷新和跳转3.关键词4.描述5.X-UA-Compatible微软的IE6是通过XP、Win2003等操作系统发布出来，作为占统治地位的桌面操作系统，也使得IE占据了通知地位，许多的网站开发的时候，就按照IE6的标准去开... 阅读全文

posted @ 2019-04-17 21:23 米兰的小铁將阅读(169) 评论(0) 推荐(0) 编辑

1、HTML的本质以及在web中的作用

摘要：一、HTML1、一套规则，浏览器认识的规则。2、开发者：学习Html规则开发后台程序：-写Html文件（充当模板的作用）******-数据库获取数据，然后替换到html文件的指定位置（Web框架）3、本地测试-找到文件路径，直接浏览器打开-pycharm打开测试4、编写Html文件-doctype对应关系-html标签，标签内部可以写属性===>只能有一N-注释：5、标签!DOCTYPE html... 阅读全文

posted @ 2019-04-17 21:17 米兰的小铁將阅读(959) 评论(0) 推荐(0) 编辑

3.11-3.15 HDFS HA

摘要：一、背景1、Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。对于只有一个NameNode的集群，若NameNode机器出现故障，则整个集群将无法使用，直到NameNode重新启动。NameNode主要在以下两个方面影响HDFS集群 >NameNode 机器发生意外，如宕机，集群将无法使用，直到管理员重启 >NameNode 机器需要升级，包括软件、硬件... 阅读全文

posted @ 2019-04-17 18:34 米兰的小铁將阅读(231) 评论(0) 推荐(0) 编辑

3.9-3.10 分布式协作服务框架Zookeeper

摘要：一、zookeeper概述一个开源的分布式的，为分布式应用提供协调服务的Apache项目。提供一个简单的原语集合，以便于分布式应用可以在它之上构建更高层次的同步服务。设计非常易于编程，它使用的是类似于文件系统那样的树形数据结构。目的就是将分布式服务不再需要由于协作冲突而另外实现协作服务。 1 阅读全文

posted @ 2019-04-17 14:26 米兰的小铁將阅读(204) 评论(0) 推荐(1) 编辑

3.6-3.8 分布式环境启动、测试

摘要：一、HDFS1、初始化文件系统#master上[root@master hadoop-2.5.0]# pwd/opt/app/hadoop-2.5.0[root@master hadoop-2.5.0]# bin/hdfs namenode -format #最后几行看到successfully，代表成功2、启动#启动[root@master hadoop-2.5.0]# sbin/star... 阅读全文

posted @ 2019-04-17 12:57 米兰的小铁將阅读(148) 评论(0) 推荐(0) 编辑

3.1-3.5 分布式部署hadoop2.x的准备和配置

摘要：一、环境 192.168.1.130 master 192.168.1.131 slave1 192.168.1.132 slave2 所有主机： 1、关闭防火墙、selinux 2、配置hosts文件 3、yum -y install vim wget tree ntpdate lrzsz ope 阅读全文

posted @ 2019-04-16 18:17 米兰的小铁將阅读(176) 评论(0) 推荐(1) 编辑

curl测试dns解析时间及tcp连接时间

摘要：1、用Linux下的curl命令测量网络请求(分号是分隔符，可以是其他符号)： -o：表示输出结果到/dev/null，-s表示去除状态信息，-w表示列出后面的参数的结果。而且python也有一个pycurl模块； 2、curl命令支持的参数，有如下： time_connect：建立到服务器的 T 阅读全文

posted @ 2019-04-09 09:50 米兰的小铁將阅读(7492) 评论(0) 推荐(0) 编辑

notepad++的NppFTP插件远程连接linux操作系统

摘要：1、首先要有NppFTP插件，如果没有可以去下面链接或者其他网站下载： https://sourceforge.net/projects/nppftp/files/latest/download 主要目的就是要得到：NppFTP.dll 文件； 2、将NppFTP.dll文件放至Notepad++的阅读全文

posted @ 2019-04-03 10:17 米兰的小铁將阅读(537) 评论(0) 推荐(0) 编辑

k8s-创建自定义chart及部署efk-二十五

摘要：一、chart的结构 (1)更改helm为阿里云仓库源 (2) 二、用helm生成基础chart示例性文件 (1) (2)启动本地仓库，并应用三、EFK日志系统 (1)添加incubator源阅读全文

posted @ 2019-04-02 14:20 米兰的小铁將阅读(1011) 评论(0) 推荐(0) 编辑

k8s-helm-二十四

摘要：一、介绍 Helm是Kubernetes的一个包管理工具，用来简化Kubernetes应用的部署和管理。可以把Helm比作CentOS的yum工具。 yum不光要解决包之间的依赖关系，还要提供具体的程序包。但是helm仓库里面只有配置清单文件，而没有镜像，镜像还是由镜像仓库来提供,比如hub.doc 阅读全文

posted @ 2019-04-01 11:15 米兰的小铁將阅读(479) 评论(0) 推荐(0) 编辑

米兰的小铁將

04 2019 档案

公告

搜索

常用链接

随笔分类

随笔档案

评论排行榜

最新评论