上一页 1 ··· 4 5 6 7 8 9 10 下一页

2019年7月12日

spark数据分析导论

摘要: 1、spark的定义 spark是一个用来实现快速而通用的集群计算平台,高效的支持更多计算模式,包括交互式查询和流处理。 主要特点就是能够在内存中进行计算,即使在磁盘上进行计算依然比mapreduce更加高效。 2、spark的软件栈 (1)Spark Core实现Spark的基本功能,包括任务调度 阅读全文

posted @ 2019-07-12 11:04 hdc520 阅读(230) 评论(0) 推荐(0) 编辑

2019年7月11日

hive之调优

摘要: 1、简单的查询,就是只是select,不带count,sum,group by这样的,都不走map/reduce,直接读取hdfs文件进行filter过滤,即尽量让fetch task(当开启一个Fetch Task功能,就执行一个简单的查询语句不会生成MapRreduce作业,而是直接使用Fetc 阅读全文

posted @ 2019-07-11 16:51 hdc520 阅读(210) 评论(0) 推荐(0) 编辑

2019年7月10日

Java中的String、StringBuffer、StringBuilder区别以及string的不变性

摘要: 1、String、StringBuffer、StringBuilder的区别 String是Java中基础类型,是immutable类(不可变)的典型实现,利用string进行拼接是会产生过多无用对象。 StringBuffer就是为解决大量拼接字符串时产生很多中间对象问题而提供的一个类,提供app 阅读全文

posted @ 2019-07-10 22:14 hdc520 阅读(436) 评论(0) 推荐(0) 编辑

2019年7月5日

hive之窗口函数

摘要: 1、窗口函数种类: over():新建一个字段,指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。 current row:当前行。 n preceding:往前n行。 n following:往后n行 unbounded:起点。 unbounded preceding:第一行 阅读全文

posted @ 2019-07-05 11:22 hdc520 阅读(440) 评论(0) 推荐(0) 编辑

2019年7月4日

hive中的列转行和行转列

摘要: 1、列转行 1.1 相关函数的说明: concat(string1,string,...) //连接括号内字符串,数量不限。 concat_ws(separator,string1,string2,...) //连接括号内字符串,数量不限,连接符为separator。 collect_set(col 阅读全文

posted @ 2019-07-04 16:19 hdc520 阅读(11856) 评论(0) 推荐(0) 编辑

2019年7月3日

hive之视图和索引

摘要: 一、视图 1、视图定义 视图其实是一个虚表,视图可以允许保存一个查询,并像对待表一样对这个查询进行操作,视图是一个逻辑结构,并不会存储数据。 2、视图的创建 通过创建视图来限制数据访问可以用来保护信息不被随意查询。 create table userinfo( id int,name string, 阅读全文

posted @ 2019-07-03 19:41 hdc520 阅读(1032) 评论(0) 推荐(0) 编辑

2019年7月2日

hive中Sort By,Order By,Cluster By,Distribute By,Group By的区别

摘要: order by: hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=st 阅读全文

posted @ 2019-07-02 17:06 hdc520 阅读(5238) 评论(0) 推荐(2) 编辑

2019年6月28日

SQL的各种连接--自联结,内连接,外连接,交叉连接

摘要: 1、准备两个表:Student,Course,其中student.C_S_Id=Course.C_Id(即Student 表中的 C_S_Id 字段为外键列,关联的是 Course 表的 C_Id 主键列) 2、内连接(table1 inner join table2 on 条件表达式):满足on条 阅读全文

posted @ 2019-06-28 11:44 hdc520 阅读(711) 评论(0) 推荐(0) 编辑

2019年6月26日

hive的数据定义之创建数据库和表

摘要: 1、对数据库的操作 create database hive_db //创建数据库hive_db create table hive_db.test(字段内容及其格式省略) //在数据库hive_db中创建test表 create database student_db location '/use 阅读全文

posted @ 2019-06-26 22:08 hdc520 阅读(12942) 评论(0) 推荐(0) 编辑

2019年6月24日

hive基础知识or基本操作命令

摘要: MySQL的密码是:123456 1、hive创建标准表(以后均可以按照这样创建): create [external] table [if not exists] records (year STRING [comment "year备注消息"], temperature INT [comment 阅读全文

posted @ 2019-06-24 16:11 hdc520 阅读(2375) 评论(0) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8 9 10 下一页

导航