上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 18 下一页
摘要: Hive与HBase的区别Hive架构原理Hive的数据模型及各模块的应用场景Hive支持的文件格式和压缩格式及各自特点Hive内外表的区分方法及内外部差异Hive视图如何创建、特点及应用场景Hive常用命令及作用Hive常用的10个系统函数及作用简述UDF/UDAF/UDTF是什么,各自解决问题及 阅读全文
posted @ 2019-12-14 14:44 玩转大数据 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 1. Hive数据倾斜原因: key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜解决方法hive设置hive.map.aggr=true和hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个M 阅读全文
posted @ 2019-12-14 13:12 玩转大数据 阅读(859) 评论(0) 推荐(0) 编辑
摘要: 1 Shell脚本是什么、它是必需的吗? 答:一个Shell脚本是一个文本文件,包含一个或多个命令。作为系统管理员,我们经常需要使用多个命令来完成一项任务,我们可以添加这些所有命令在一个文本文件(Shell脚本)来完成这些日常工作任务。 2 什么是默认登录shell,如何改变指定用户的登录shell 阅读全文
posted @ 2019-12-08 20:29 玩转大数据 阅读(1870) 评论(0) 推荐(0) 编辑
摘要: Windowing functions 1.LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值第一个参数为列名,第二个参数为往下第n行(可选,默认为1,不可为负数),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL) 2.LAG(col,n,DEFAU 阅读全文
posted @ 2019-12-06 16:37 玩转大数据 阅读(919) 评论(0) 推荐(0) 编辑
摘要: 1.hbase的特点是什么? 答:1)hbase是一个分布式的,基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2)hbase 适合存储半结构化或非结构化的数据,对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。 3)hbase为null的数据不会 阅读全文
posted @ 2019-12-04 10:27 玩转大数据 阅读(928) 评论(0) 推荐(1) 编辑
摘要: 1、Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析和管理;(也就是说对存储在HDFS中的数据进行分析和管理,我们不想使用手工,我们建立一个工具把,那么这个工具就可以是hive) 2、 hive建表语法中的分隔符设定ROW FORMAT DELIMITED 阅读全文
posted @ 2019-12-04 10:22 玩转大数据 阅读(217) 评论(0) 推荐(0) 编辑
摘要: (1)列出HDFS下的文件 hadoop dfs -ls <目录> (2)上传文件 将Linux系统本地文件上传到HDFS中 hadoop dfs -put <本地文件> <HDFS文件> (3)下载文件 将HDFS 中的文件下载到Linux系统本地目录 hadoop dfs -get <HDFS文 阅读全文
posted @ 2019-12-03 21:03 玩转大数据 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 1.点击更改适配器选项 2.右击以太网--点击属性--共享--选择要共享的网卡 3.修改 ifcfg-eth0文件 vim /etc/sysconfig/network-scripts/ifcfg-eth0 注意:GATEWAY写的是本机的vmnet1的ip IPADDR写的是虚拟机的ip 4.重启 阅读全文
posted @ 2019-12-03 20:22 玩转大数据 阅读(1331) 评论(0) 推荐(0) 编辑
摘要: gzip,bzip2,lzo,snappy是hadoop中比较常见的文件压缩格式,可以节省很多硬盘存储,以下是Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景 Gzip 优点: 1.压缩解压速度快 , 压缩率高 , hadoop本身支持 2.处理压缩文件时方便 , 和 阅读全文
posted @ 2019-11-28 20:40 玩转大数据 阅读(1655) 评论(0) 推荐(0) 编辑
摘要: cat cat(英文全拼:concatenate)命令用于连接文件并打印到标准输出设备上。 使用权限 所有使用者 语法格式 cat [-AbeEnstTuv] [--help] [--version] fileName 参数说明: -n 或 --number:由 1 开始对所有输出的行数编号。 -b 阅读全文
posted @ 2019-11-28 19:53 玩转大数据 阅读(707) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 18 下一页