duan2

导航

 

2017年10月2日

摘要: 基本函数 SHOW FUNCTIONS; DESCRIBE FUNCTION <function_name>; 返回值类型 名称 描述 string from_unixtime(int unixtime) 将时间戳(unix epoch秒数)转换为日期时间字符串,例如from_unixtime(0) 阅读全文
posted @ 2017-10-02 20:47 duan2 阅读(699) 评论(0) 推荐(0) 编辑
 
摘要: 总述 常用数据类型 目前在hive中常用的数据类型有: BIGINT – 主要用于状态,类别,数量的字段, 如status/option/type/quantity DOUBLE – 主要用于金额的字段, 如fee/price/bid STRING – 除上述之外的字段基本都使用String, 尤其 阅读全文
posted @ 2017-10-02 19:43 duan2 阅读(457) 评论(0) 推荐(0) 编辑
 

2017年10月1日

摘要: 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 工作机制 将导入或导出命令翻译成mapre 阅读全文
posted @ 2017-10-01 22:59 duan2 阅读(224) 评论(0) 推荐(0) 编辑
 
摘要: 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 例如,我们可能有这样一个需求,某个业 阅读全文
posted @ 2017-10-01 16:40 duan2 阅读(785) 评论(0) 推荐(0) 编辑
 

2017年9月28日

摘要: 采集目录到HDFS 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 配置文件编写: Channel参数解释: capacity:默认该通道中最大的可以存储的event数量 trasactionCapacity:每 阅读全文
posted @ 2017-09-28 20:09 duan2 阅读(473) 评论(0) 推荐(0) 编辑
 
摘要: 1.线程的优先级 在操作系统中,线程可以划分优先级,优先级高的线程得到的CPU资源较多,也是CPU优先执行优先级较高的线程对象中的任务。 设置线程优先级有助于帮“线程规划器”确定在下一次选择哪一个线程来优先执行。 设置优先级使用setPriority()方法。 线程优先级的继承性 java中线程的优 阅读全文
posted @ 2017-09-28 18:25 duan2 阅读(403) 评论(0) 推荐(0) 编辑
 
摘要: 1.停止线程 停止线程是多线程开发很重要的技术点,掌握此技术可以对线程的停止惊醒有效的处理。 停止一个线程可以使用Thread.stop()方法,但最好不要使用它,这个方法是不安全的。 大多数停止一个线程使用的是Thread.interrupt()方法,尽管方法的名称是“停止,中止”,但这个方法不会 阅读全文
posted @ 2017-09-28 13:45 duan2 阅读(176) 评论(0) 推荐(0) 编辑
 
摘要: Hive支持关系型数据库中大多数的基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型。 基本数据类型 集合数据类型 Hive中的列支持使用struct,map和array集合数据类型。 读时模式 当用户向传统数据库中写入数据的时候,不管是采用装载外部数据的方式还是采用将一个查询的结果写 阅读全文
posted @ 2017-09-28 08:22 duan2 阅读(719) 评论(0) 推荐(0) 编辑
 

2017年9月27日

摘要: 1.多线程的概念 进程的概念 进程是操作系统结构的基础;是一次程序的执行,它是系统进行资源分配和调度的一个独立单位。 线程 线程可以理解为在进程中独立运行的子任务。比如QQ进程在运行中,有很多子任务同时运行,如,好友视频线程,下载文章线程,数据传输线程等。 单任务的特点就是排队执行,也就是同步。多线 阅读全文
posted @ 2017-09-27 17:33 duan2 阅读(136) 评论(0) 推荐(0) 编辑
 
摘要: 从今天起,阅读hive编程指南。每天进步一点点! 安装hive 1.解压hive 2.Hive使用环境变量HADOOP_HOME来指定Hadoop的所有相关的Jar和配置文件 Hive的内部组件 Thrift服务提供给了可远程访问其它进程的功能,也提供使用JDBC和ODBC访问Hive的功能。这些都 阅读全文
posted @ 2017-09-27 08:05 duan2 阅读(292) 评论(0) 推荐(0) 编辑