摘要: Hive函数介绍HQL内嵌函数只有195个函数(包括操作符,使用命令show functions查看),基本能够胜任基本的hive开发,但是当有较为复杂的需求的时候,可能需要进行定制的HQL函数开发。HQL支持三种方式来进行功能的扩展(只支持使用java编写实现自定义函数),分别是:UDF(User 阅读全文
posted @ 2019-03-16 14:24 Transkai 阅读(2321) 评论(0) 推荐(0) 编辑
摘要: Hive服务介绍 Hive默认提供的cli(shell)服务,如果需要启动其他服务,那么需要service参数来启动其他服务,比如thrift服务、metastore服务等。可以通过命令hive --service help查看hive支持的命令。 Hive Shell命令介绍Hive的shell命 阅读全文
posted @ 2019-03-16 01:03 Transkai 阅读(6274) 评论(0) 推荐(0) 编辑
摘要: 一.Hive介绍 Hive包含用户接口、元数据库、解析器和数据仓库等组件组成,其中用户接口包含shell客户端、JDBC、ODBC、Web接口等。元数据库主要是指定义在hive中的表结构信息,一般保存到关系型数据库中,默认是derby,一般使用mysql进行保存。解析器主要功能是将HQL语句转换为m 阅读全文
posted @ 2019-03-16 00:34 Transkai 阅读(1226) 评论(0) 推荐(0) 编辑
摘要: Python爬虫框架Scrapy Scrapy框架 1、Scrapy框架安装 直接通过这里安装scrapy会提示报错: 解决方法: 在有很多用于windows的编译好的Python第三方库,我们下载好对应自己Python版本的库即可。 1. 在cmd中输入指令python,查看python的版本,如 阅读全文
posted @ 2019-03-15 01:46 Transkai 阅读(1336) 评论(0) 推荐(0) 编辑
摘要: Python笔记 1、Python3和Pycharm2018的安装 2、Python3基础语法 2.1.1、数据类型 2.1.1.1、数据类型:数字(整数和浮点数) 整数:int类型 浮点数:float类型。 2.1.1.2、数据类型:字符类型 2.1.1.3、数据类型:布尔类型 True:真 Fl 阅读全文
posted @ 2019-03-15 01:42 Transkai 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 一.Mapreduce 中的Combiner 在job类中声明如下: 二.MapTask工作机制 主要的核心类: 读: FileInputFormat TextInputFormat createRecordReader LineRecordReader nextKeyValue 写: contex 阅读全文
posted @ 2019-03-10 23:59 Transkai 阅读(422) 评论(0) 推荐(0) 编辑
摘要: Myeclipse+Git EGit安装 MyEclipse已经集成了Git插件EGit,在window->Preference里搜索git可以看到。 如果没有,安装方式为Help->Install From Catalog->搜索Git,找到Eclipse EGit Eclipse Git Tea 阅读全文
posted @ 2019-03-07 11:38 Transkai 阅读(6222) 评论(1) 推荐(2) 编辑
摘要: 一.重点 1.创建和启动线程 2.实现线程调度 3.实现线程同步 4.实现线程通信 1.为什么要学习多线程? 当多个人访问电脑上同一资源的时候,要用到多线程,让每个人感觉很多电脑同时为多个人服务。 比如: 1.1.排队叫号系统,多个人同一时间请电脑生成一张等待票据时, 如果没有多线程的话,有可能会生 阅读全文
posted @ 2019-03-07 00:41 Transkai 阅读(224) 评论(0) 推荐(0) 编辑
摘要: mapreduce设计思想 概念:它是一个分布式并行计算的应用框架它提供相应简单的api模型,我们只需按照这些模型规则编写程序,即可实现"分布式并行计算"的功能。 案例一:wordcount经典案例 先写map方法 以下为reduce方法 最后是主类 双击package,可以生成mapreducew 阅读全文
posted @ 2019-03-05 00:22 Transkai 阅读(960) 评论(0) 推荐(0) 编辑
摘要: Secondary namenode 首先,我们假设如果存储在Namenode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断点,元数据丢失,整个集群就无法工作了!!!因此必须在磁盘中有备份,在磁盘中的备份就是fsIm 阅读全文
posted @ 2019-03-04 22:01 Transkai 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 元数据目录分析 在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘: $HADOOP_HOME/bin/hdfs namenode -format 格式化完成之后,将会在$dfs.namenode.name.dir/current目录下如下的文件结构 其中的df 阅读全文
posted @ 2019-03-04 00:24 Transkai 阅读(523) 评论(0) 推荐(0) 编辑
摘要: DataNode 目录结构 和namenode不同的是,datanode的存储目录是初始阶段自动创建的,不需要额外格式化。 1、 在/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current这个目录下查看版本号 [victor@hadoop102 curre 阅读全文
posted @ 2019-03-04 00:16 Transkai 阅读(951) 评论(0) 推荐(0) 编辑
摘要: HDFS 文件块大小 HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显 阅读全文
posted @ 2019-03-04 00:14 Transkai 阅读(811) 评论(0) 推荐(0) 编辑
摘要: HDFS的shell(命令行客户端)操作实例 3.2 常用命令参数介绍 -help 功能:输出这个命令参数手册 -ls 功能:显示目录信息 示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都可以简写 -->hadoop 阅读全文
posted @ 2019-03-04 00:11 Transkai 阅读(328) 评论(0) 推荐(0) 编辑
摘要: JAVA HDFS客户端操作 通过API操作HDFS org.apache.logging.log4jlog4j-core2.8.2org.apache.hadoophadoop-common${hadoop.version}org.apache.hadoophadoop-hdfs${hadoop. 阅读全文
posted @ 2019-03-04 00:07 Transkai 阅读(364) 评论(0) 推荐(0) 编辑