2020 年 4月 1 日随笔档案 - $王大少

kafka消息中间键

摘要： 1、 kafka的介绍 kafka是linkedin公司开源捐献给apache的一个消息队列的框架，底层语言用的是scala kafka是一个分布式的消息队列，提供了类似于JMS的特性，不是标准的JMS的实现，也有生产者，消费者，topic等组件 2、消息队列的作用解耦，异步，并行 3、 kak 阅读全文

posted @ 2020-04-01 20:49 $王大少阅读(170) 评论(0) 推荐(0) 编辑

hive调优

摘要： 1、Fetch抓取，尽量避免hive走mapreduce。如何设置:set hive.fetch.task.conversion=more; 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minima 阅读全文

posted @ 2020-04-01 17:46 $王大少阅读(722) 评论(0) 推荐(0) 编辑

hive的自定义函数

摘要： 1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。 2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。 3）根据用户自定义函数类别分为以下三种：（1 阅读全文

posted @ 2020-04-01 13:35 $王大少阅读(438) 评论(0) 推荐(0) 编辑

hive的查询语法

摘要： 1、hive的查询语法一大部分跟mysql类似 2、hive的一些排序 order by 全局排序：所有的数据都去往一个reduce里面去，会造成效率低下，慎用sort by 每一个reduce内部进行排序，也就是局部有序，但是全局无序distribured by 按照指定的字段进行hash 散列，阅读全文

posted @ 2020-04-01 12:47 $王大少阅读(599) 评论(0) 推荐(0) 编辑

hive的数据导出和导入

摘要：导出数据:(路径必须是hdfs的路径) export table techer to '/export/techer'; 导入数据:(路径必须是hdfs的路径) import table techer2 from '/export/techer'; 阅读全文

posted @ 2020-04-01 11:06 $王大少阅读(183) 评论(0) 推荐(0) 编辑

$王大少

导航

公告

kafka消息中间键

hive调优

hive的自定义函数

hive的查询语法

hive的数据导出和导入