上一页 1 2 3 4 5 6 7 ··· 15 下一页
摘要: 使用LIKE运算选择类似的值,选择条件可以包含字符或数字:% 代表零个或多个字符(任意个字符)。_ 代表一个字符 RLIKE子句是Hive中这个功能的一个扩展,可以通过Java的正则表达式这个更强大的语言来指定匹配条件 查找以2开头薪水的员工信息:hive (default)> select * f 阅读全文
posted @ 2019-08-25 20:39 北漂屌丝 阅读(7174) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-24 11:27 北漂屌丝 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 本质的区别就是where筛选的是表里面本来就有的字段,而having筛选的字段是筛选之后字段 HAVING语句通常与GROUP BY语句联合使用,用来过滤由GROUP BY语句返回的记录集,HAVING语句的存在弥补了WHERE关键字不能与聚合函数联合使用的不足 本质的区别就是where筛选的是表里 阅读全文
posted @ 2019-08-24 11:14 北漂屌丝 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 机制和原理 目的是提高Hive表指定列的查询速度 没有索引的时候,Hive在执行查询时需要加载整个表或者整个分区,然后处理所有的数据,但当在指定列上存在索引,再通过指定列查询时,那么只会加载和处理部分文件 同传统关系型数据库一样,增加索引在提升查询速度的同时,会额外消耗资源去创建索引和需要更多的磁盘 阅读全文
posted @ 2019-08-24 10:43 北漂屌丝 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 基本数据类型 基本数据类型 复杂数据类型 复杂数据类型 阅读全文
posted @ 2019-08-20 19:38 北漂屌丝 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 第一范式(1NF) 第一范式是指关系表R中的每列都是原子不可分的项,即每个属性都是最基本的数据项 如果我们在数据库中建立一张员工表emp(id, name, age, dept),对于前三个属性都是基本类型,不可再分,而对于第四个属性dept,它在程序中其实对应于结构体,为复合属性,因此,按照第一范 阅读全文
posted @ 2019-08-20 15:02 北漂屌丝 阅读(423) 评论(0) 推荐(0) 编辑
摘要: Hive创建表的三种方式 1、使用create命令创建一个新表 2、把一张表的某些字段抽取出来,创建成一张新表 3、复制表结构 Hive表导入数据五种方式 1、本地导入 2、HDFS导入 3、覆盖导入 4、查询导入 5、insert导入 Hive表导出数据四种方式 1、本地导出 2、HDFS导出 3 阅读全文
posted @ 2019-08-20 14:24 北漂屌丝 阅读(199) 评论(0) 推荐(0) 编辑
摘要: Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口 用户提交查询任务给Driver 编译器获得该用户的任务 编译器(Com 阅读全文
posted @ 2019-08-20 10:09 北漂屌丝 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 一、RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执 阅读全文
posted @ 2019-08-18 21:50 北漂屌丝 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 压缩格式工具算法文件扩展名多文件可分割性 DEFLATE 无 DEFLATE .deflate 不 不 gzip gzip DEFLATE .gz 不 不 ZIP zip DEFLATE .zip 是 是,在文件范围内 bzip2 bzip2 bzip2 .bz2 不 是 LZO lzop LZO .lzo 不 是 阅读全文
posted @ 2019-08-17 08:35 北漂屌丝 阅读(113) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 15 下一页