$王大少

导航

2020年4月5日 #

把一个数据转换成迭代器的方法

摘要: String[] split = line.split(" ");//通过对字符串的切分得到的string类型的数组 Arrays.asList(split).iterator();//通过这个方法可以得到一个迭代器 阅读全文

posted @ 2020-04-05 17:23 $王大少 阅读(342) 评论(0) 推荐(0) 编辑

2020年4月4日 #

impala

摘要: 一、impala基本介绍? 所有的计算都是基于内存来的,官方推荐每台服务器的内存最少128G起 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive块3到10倍,其sql查询比sparkSQL还要快,号称是当前大数据领域最快的查询sql工具。 i 阅读全文

posted @ 2020-04-04 18:23 $王大少 阅读(319) 评论(0) 推荐(0) 编辑

2020年4月3日 #

mr调优

摘要: 一、调优的目的充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。二、调优的总体概述从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括数据的读取、map处理以及写出操作(排序 阅读全文

posted @ 2020-04-03 17:46 $王大少 阅读(287) 评论(0) 推荐(0) 编辑

2020年4月2日 #

kafka通过控制台模拟消息发送和消息接收正常,但是通过javaAPI操作生产者发送消息不成功 消费者接收不到数据解决方案?

摘要: 通过命令行工具(kafka-console-producer.sh和kafka-console-consumer.sh)是能够相互通信的,producer发布的信息consumer能够接收到。 但是java通过kafka-client的API写的代码始终不能跟kafka通信:java produce 阅读全文

posted @ 2020-04-02 10:13 $王大少 阅读(2580) 评论(0) 推荐(1) 编辑

2020年4月1日 #

kafka消息中间键

摘要: 1、 kafka的介绍 kafka是linkedin公司开源捐献给apache的一个消息队列的框架,底层语言用的是scala kafka是一个分布式的消息队列,提供了类似于JMS的特性,不是标准的JMS的实现,也有生产者,消费者,topic等组件 2、 消息队列的作用 解耦,异步,并行 3、 kak 阅读全文

posted @ 2020-04-01 20:49 $王大少 阅读(164) 评论(0) 推荐(0) 编辑

hive调优

摘要: 1、Fetch抓取,尽量避免hive走mapreduce。如何设置:set hive.fetch.task.conversion=more; 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minima 阅读全文

posted @ 2020-04-01 17:46 $王大少 阅读(299) 评论(0) 推荐(0) 编辑

hive的自定义函数

摘要: 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 3)根据用户自定义函数类别分为以下三种: (1 阅读全文

posted @ 2020-04-01 13:35 $王大少 阅读(434) 评论(0) 推荐(0) 编辑

hive的查询语法

摘要: 1、hive的查询语法一大部分跟mysql类似 2、hive的一些排序 order by 全局排序:所有的数据都去往一个reduce里面去,会造成效率低下,慎用sort by 每一个reduce内部进行排序,也就是局部有序,但是全局无序distribured by 按照指定的字段进行hash 散列, 阅读全文

posted @ 2020-04-01 12:47 $王大少 阅读(594) 评论(0) 推荐(0) 编辑

hive的数据导出和导入

摘要: 导出数据:(路径必须是hdfs的路径) export table techer to '/export/techer'; 导入数据:(路径必须是hdfs的路径) import table techer2 from '/export/techer'; 阅读全文

posted @ 2020-04-01 11:06 $王大少 阅读(183) 评论(0) 推荐(0) 编辑

2020年3月31日 #

hive中表的创建和对表数据的操作

摘要: 一、hive中表分为两种 1、内部表(管理表): 删除表的时候删除hdfs上的数据。 2、外部表 删除表的时候不删除hdfs上的数据。 外部表不能使用insert的方式插入数据,所有的数据来源,都是外部别人提供的,所以hive认为自己没有独占这份数据,所以删除hive表的时候,不会删 除表里面的数据 阅读全文

posted @ 2020-03-31 18:02 $王大少 阅读(2169) 评论(0) 推荐(0) 编辑