摘要: Hive与HBase的区别Hive架构原理Hive的数据模型及各模块的应用场景Hive支持的文件格式和压缩格式及各自特点Hive内外表的区分方法及内外部差异Hive视图如何创建、特点及应用场景Hive常用命令及作用Hive常用的10个系统函数及作用简述UDF/UDAF/UDTF是什么,各自解决问题及 阅读全文
posted @ 2019-12-14 14:44 玩转大数据 阅读(348) 评论(0) 推荐(0) 编辑
摘要: cat cat(英文全拼:concatenate)命令用于连接文件并打印到标准输出设备上。 使用权限 所有使用者 语法格式 cat [-AbeEnstTuv] [--help] [--version] fileName 参数说明: -n 或 --number:由 1 开始对所有输出的行数编号。 -b 阅读全文
posted @ 2019-11-28 19:53 玩转大数据 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 导读: wget是Linux中的一个下载文件的工具,wget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括Windows在内的各个平台上。 它用在命令行下。对于Linux用户是必不可少的工具,尤其对于网络管理员,经常要下载一些软件或从远程服务器恢复备份到本 阅读全文
posted @ 2019-11-19 08:56 玩转大数据 阅读(296186) 评论(6) 推荐(37) 编辑
摘要: 如果忘记了CentOS 7的密码,可以通过以下步骤进行重置: 重启CentOS 7操作系统,在出现开机界面时,按下向上或向下方向键,使开机界面停留。选择第一行,按字母“e”进入编辑模式。在编辑界面中,使用向下方向键定位到以“linux16”开头的一行。在该行中,找到“ro”并将其替换为“rw ini 阅读全文
posted @ 2025-02-16 00:13 玩转大数据 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 先备份一份 /etc/yum.repos.d 里面的所有文件! cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup CentOS 7 执行: curl -o /etc/yum.repos.d/Ce 阅读全文
posted @ 2025-02-15 18:33 玩转大数据 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 1.查看本机ip信息 网卡信息名称 单击右键选择属性 查看网卡名称 win+r 进入cmd输入ipconfig查看ip信息 2.更改虚拟网络编辑器中桥接模式的信息 配置完成点击确认 3.更改虚拟机网络适配器为桥接模式 选择桥接模式 点击确定 4.更改虚拟机的网卡信息 cd /etc/sysconfi 阅读全文
posted @ 2025-02-15 13:39 玩转大数据 阅读(27) 评论(0) 推荐(0) 编辑
摘要: VMware Workstation下载: VMware官方CDS:https://softwareupdate.vmware.com/cds/vmw-desktop/ 下载Centos镜像 阿里云开源镜像站:https://mirrors.aliyun.com/centos/7.9.2009/is 阅读全文
posted @ 2025-02-14 20:21 玩转大数据 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 避免使用SELECT *:只选择必要的列可以减少数据传输量和处理时间。 避免使用OR和NOT IN:使用OR和NOT IN会导致全表扫描,影响查询性能。 使用LIMIT分页:使用LIMIT分页可以避免一次性返回大量数据‍。 使用EXPLAIN查看执行计划:可以通过查看执行计划了解SQL的执行情况。 阅读全文
posted @ 2024-07-25 23:36 玩转大数据 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 1、 kettle概述 1.1 什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 1.2 Kettle核心知识点 1.2.1 Kettle工程存储方式 以XML形式存储 以资源库方式存储(数据库资 阅读全文
posted @ 2024-07-25 22:40 玩转大数据 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 一、简单说一下数据仓库分层架构? ODS数据缓冲层:存放的是原始数据,包括业务数据、日志数据、第三方数据等。DWD数据明细层:对ODS层的数据做一定的清洗和转换。DWS数据服务层:对DWD层的数据做轻度的汇总,得到业务汇总表或宽表。ADS数据应用层:汇总得到业务相关的指标或数据。 二、MapRedu 阅读全文
posted @ 2024-07-22 16:27 玩转大数据 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 一、简介 1、hive建表时存储格式 一般情况下hive在创建表时默认的存储格式是textfile,hive常用的存储格式有五种,textfile、sequencefile、rcfile、orc、parquet。 2、五种存储格式的区别 hive五种存储格式的区别 存储格式文件存储编码格式建表指定 阅读全文
posted @ 2024-01-02 10:52 玩转大数据 阅读(1358) 评论(0) 推荐(1) 编辑
摘要: 一、数据仓库分层 数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了数据建模、ETL(数据抽取、转换、加载)、作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。 数据仓库一般为4层:数据缓冲层、数据明细层、数据服务层、 阅读全文
posted @ 2023-12-19 16:37 玩转大数据 阅读(3485) 评论(0) 推荐(0) 编辑
摘要: 一、什么是存储过程? MySQL 5.0 版本开始支持存储过程。 简单的说,存储过程就是一组SQL语句集,功能强大,可以实现一些比较复杂的逻辑功能,类似于JAVA语言中的方法; 存储过就是数据库 SQL 语言层面的代码封装与重用。 二、有哪些特性? 有输入输出参数,可以声明变量,有if/else, 阅读全文
posted @ 2023-12-07 11:03 玩转大数据 阅读(4821) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示