$王大少

导航

2020年4月1日 #

kafka消息中间键

摘要: 1、 kafka的介绍 kafka是linkedin公司开源捐献给apache的一个消息队列的框架,底层语言用的是scala kafka是一个分布式的消息队列,提供了类似于JMS的特性,不是标准的JMS的实现,也有生产者,消费者,topic等组件 2、 消息队列的作用 解耦,异步,并行 3、 kak 阅读全文

posted @ 2020-04-01 20:49 $王大少 阅读(170) 评论(0) 推荐(0) 编辑

hive调优

摘要: 1、Fetch抓取,尽量避免hive走mapreduce。如何设置:set hive.fetch.task.conversion=more; 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minima 阅读全文

posted @ 2020-04-01 17:46 $王大少 阅读(722) 评论(0) 推荐(0) 编辑

hive的自定义函数

摘要: 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 3)根据用户自定义函数类别分为以下三种: (1 阅读全文

posted @ 2020-04-01 13:35 $王大少 阅读(438) 评论(0) 推荐(0) 编辑

hive的查询语法

摘要: 1、hive的查询语法一大部分跟mysql类似 2、hive的一些排序 order by 全局排序:所有的数据都去往一个reduce里面去,会造成效率低下,慎用sort by 每一个reduce内部进行排序,也就是局部有序,但是全局无序distribured by 按照指定的字段进行hash 散列, 阅读全文

posted @ 2020-04-01 12:47 $王大少 阅读(599) 评论(0) 推荐(0) 编辑

hive的数据导出和导入

摘要: 导出数据:(路径必须是hdfs的路径) export table techer to '/export/techer'; 导入数据:(路径必须是hdfs的路径) import table techer2 from '/export/techer'; 阅读全文

posted @ 2020-04-01 11:06 $王大少 阅读(183) 评论(0) 推荐(0) 编辑