摘要: Hive与HBase的区别Hive架构原理Hive的数据模型及各模块的应用场景Hive支持的文件格式和压缩格式及各自特点Hive内外表的区分方法及内外部差异Hive视图如何创建、特点及应用场景Hive常用命令及作用Hive常用的10个系统函数及作用简述UDF/UDAF/UDTF是什么,各自解决问题及 阅读全文
posted @ 2019-12-14 14:44 玩转大数据 阅读(343) 评论(0) 推荐(0) 编辑
摘要: cat cat(英文全拼:concatenate)命令用于连接文件并打印到标准输出设备上。 使用权限 所有使用者 语法格式 cat [-AbeEnstTuv] [--help] [--version] fileName 参数说明: -n 或 --number:由 1 开始对所有输出的行数编号。 -b 阅读全文
posted @ 2019-11-28 19:53 玩转大数据 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 导读: wget是Linux中的一个下载文件的工具,wget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括Windows在内的各个平台上。 它用在命令行下。对于Linux用户是必不可少的工具,尤其对于网络管理员,经常要下载一些软件或从远程服务器恢复备份到本 阅读全文
posted @ 2019-11-19 08:56 玩转大数据 阅读(295543) 评论(6) 推荐(37) 编辑
摘要: 避免使用SELECT *:只选择必要的列可以减少数据传输量和处理时间。 避免使用OR和NOT IN:使用OR和NOT IN会导致全表扫描,影响查询性能。 使用LIMIT分页:使用LIMIT分页可以避免一次性返回大量数据‍。 使用EXPLAIN查看执行计划:可以通过查看执行计划了解SQL的执行情况。 阅读全文
posted @ 2024-07-25 23:36 玩转大数据 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 一、简介 1、hive建表时存储格式 一般情况下hive在创建表时默认的存储格式是textfile,hive常用的存储格式有五种,textfile、sequencefile、rcfile、orc、parquet。 2、五种存储格式的区别 hive五种存储格式的区别 存储格式文件存储编码格式建表指定 阅读全文
posted @ 2024-01-02 10:52 玩转大数据 阅读(1118) 评论(0) 推荐(1) 编辑
摘要: 一、数据仓库分层 数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了数据建模、ETL(数据抽取、转换、加载)、作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。 数据仓库一般为4层:数据缓冲层、数据明细层、数据服务层、 阅读全文
posted @ 2023-12-19 16:37 玩转大数据 阅读(2065) 评论(0) 推荐(0) 编辑
摘要: 一、什么是存储过程? MySQL 5.0 版本开始支持存储过程。 简单的说,存储过程就是一组SQL语句集,功能强大,可以实现一些比较复杂的逻辑功能,类似于JAVA语言中的方法; 存储过就是数据库 SQL 语言层面的代码封装与重用。 二、有哪些特性? 有输入输出参数,可以声明变量,有if/else, 阅读全文
posted @ 2023-12-07 11:03 玩转大数据 阅读(4637) 评论(0) 推荐(0) 编辑
摘要: 一、使用Tushare获取 可参照官网:https://tushare.pro/ 步骤 1:安装 Tushare 库 在 Python 环境中使用 pip 命令安装 Tushare 库:pip install tushare 步骤 2:导入 Tushare 库 在 Python 代码中导入 Tush 阅读全文
posted @ 2023-11-23 11:23 玩转大数据 阅读(662) 评论(0) 推荐(0) 编辑
摘要: 一、 连接数据库 1、下载安装pymyql库 pip3 install pymysql 2、导入库 import pymysql 3、连接数据库,最好用try except捕获异常 DBHOST = 'localhost' DBUSER = 'root' DBPASS = 'root' DBNAME 阅读全文
posted @ 2023-11-17 15:54 玩转大数据 阅读(23) 评论(0) 推荐(0) 编辑
摘要: Pycharm设置步骤:FIle → settings → Editor → FIle Types → Ignored Files and Folders → + → *.pyi 阅读全文
posted @ 2023-11-15 15:40 玩转大数据 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 前言 当我们在生产过程中,都会遇到诸如此类的问题。定时清理日志成为了必不可少的一步骤! 一.定时清理简述 当我们要定期的备份以及删除时,我们需要写一个shell 脚本,然后用 crontab 来每天定期执行。 二.定时脚本编写 find 对应目录 -mtime +天数 -name "文件名" -ex 阅读全文
posted @ 2023-11-14 10:33 玩转大数据 阅读(1677) 评论(0) 推荐(0) 编辑
摘要: Anaconda是一个非常流行的Python发行版,它集成了Python解释器、常用的第三方库以及一些工具。Anaconda提供了一种方便的方式来管理Python环境和安装第三方库。在本文中,我们将讨论如何在Anaconda中安装第三方库。 一、使用conda命令安装第三方库 Anaconda提供了 阅读全文
posted @ 2023-11-10 16:14 玩转大数据 阅读(2284) 评论(0) 推荐(0) 编辑
摘要: 一、选择国内常用镜像源 国内常用的镜像源有阿里云、清华大学、中国科技大学、华中理工大学、山东理工大学、豆瓣等。 阿里云镜像源:http://mirrors.aliyun.com/pypi/simple/ 清华大学镜像源:https://pypi.tuna.tsinghua.edu.cn/simple 阅读全文
posted @ 2023-11-10 14:24 玩转大数据 阅读(4461) 评论(0) 推荐(0) 编辑