Hive2.2.1概述(待重写)
概述
hive 是一个包裹着 hdfs 的壳子,hive 通过 hql,将 sql 翻译成 MR ,进行数据查询。
Hive是⼀个构建在Hadoop之上的数据仓库
hive的数据存在hdfs上,元信息放在metastore中,metastore也放在hdfs上
和传统的数据仓库⼀样,主要⽤来访问和管理数据,同样提供了类SQL查询语⾔
和传统数据仓库不⼀样,可以处理超⼤规模的数据,可扩展性和容错性⾮常强
举个直观一点的例子,一个MapReduce程序,需要写很多代码,但是我们可以在hive上使用一条sql来实现,比如
SELECT word, COUNT(*) FROM doc LATERAL VIEW explode(split(text, ' ')) lTable as word GROUP BY word;
hive会将上述sql翻译成MapReduce程序,帮我们跑,生活太美好了
Thrift是facebook开源的,支持任意语言的访问,如果你想让你的系统支持任意语言,那么就让你的系统支持Thrift的协议
sql-beeline(这个是轻量级)-hiveserver,他会和metastor交互,hiveserver进行语法解析,解析成语法树,变成查询计划,进行优化后,将查询计划交给执行引擎,默认是MR,然后翻译成mr,他会将sql发送到hiveserver上
sql-hive-metastore-mysql,这个是重量级,因为hive是在本地那里进行语法解析,翻译成mr
数据加载与插入语句,hive的load导入非常快,他不会对数据类型进行任何转换,而是在mr程序中进行校验,如果int但是值是string,则报错,如果本地load,则会把本地数据上传到hdfs上,如果load的是hdfs,则会复制一份到另一个hdfs的目录下
列式存储也可以按行读,只不过是拼接的开销大,不影响sql的编写
rc是一种非常经典的存储格式,可以查一下
支付宝的自己开发的一个系统oceanBase
OLAP的开源系统 greenplum/druid/kylin/presto(和他很像的是impala)/hive
create table table-test,的时候,不要把show create table table1的结果,复制到table-test的create语句,因为show table1里面有这个表在hdfs的地址,如果你删除table-test的时候,会删除table1,这时候就数据丢失,很严重
取整行的时候,行存储比列存储好,当你对事务要求高的时候,行存储比列存储适合
开源的etl工具,kettle,开源可视化,
ETL用hive就可以实现
我们希望日志,在flume进kafka之前就进行清洗,转换成java类对象,但这样比较难,岂不是自己写flume
可以这样做,flume先写进kafka,然后用etl工具去消费这个旧的topic,处理后,在写进kafka,用一个新的topic,然后下游就可以用了
myslq有个binlog,hbase的log是WAL Hlog
hive默认的mr并行个数是8
beeeline是官方推荐的,最好用这个,而不是hive方式
大数据方面的sort:merge sort,真是厉害
列式存储,是先按行切分,然后在block1中写入第一列的值,第二列的值
mysql中not in 比 not exists效率低,不过在hive中差不多,底层类似join
Hive典型应用场景
日志分析,统计⽹站⼀个时间段内的pv、uv,多维度数据分析,⼤部分互联⽹公司使⽤Hive进⾏⽇志分析,包括百度、淘宝等,海量结构化数据离线分析,低成本进⾏数据分析(不直接编写MR,简单的sql就直接查询不会走MR)
但是hive不是一个OLTP,也不是LOAP系统,响应时间慢,⽆法实时更新数据,对事务的⽀持很弱,表达能力弱,不⽀持迭代式计算,有些复杂运算⽤SQL不易表达
Hive的运行原理
sql发送给hive cli,从MetaStore获取一些元信息(列信息,表的位置信息,文件格式,序列化器,统计信息),然后会向yarn申请资源,去运行MapReduce,最后输出结果
Hive基本架构
⽤户接口,包括CLI,JDBC/ODBC,WebUI
元数据存储(metastore),默认存储在⾃带的数据库derby中,线上使⽤时⼀般换为MySQL
驱动器(Driver),解释器、编译器、优化器、执⾏器
Hadoop,⽤MapReduce 进⾏计算,⽤HDFS 进⾏存储
Hive CLI的内部组成
执行物理计划
可替换的执行引擎
执行引擎对比
Hive命令行访问
Hive CLI
– hive
– hive -h <host> -p <port>
Hive Beeline
– beeline -u jdbc:hive2://<host>:<port>
数据模型
database-table-partiton-file
Databases,Tables:和关系型数据库中的数据库、表⼀样
Partitions(可选):⼀些特殊的列,⽤于优化数据的存储和查询
Files:实际数据的物理存储单元
数据类型
STRUCT、MAP、ARRAY是其他数据库没有的
两种分布式Join算法
Map-side Join(Broadcast join)
• Join操作在map task中完成,因此无需启动reduce task;
• 适合一个大表,一个小表的连接操作
• 思想:小表复制到各个节点上,并加载到内存中;大表分片,与小表完
成连接操作
Reduce-side Join(shuffle join)
• Join操作在reduce task中完成;
• 适合两个大表连接操作
• 思想:map端按照连接字段进行hash,reduce 端完成连接操作