文章分类 - 大数据
大数据案例-步骤一:本地数据集上传到数据仓库Hive
摘要:大数据案例-步骤一:本地数据集上传到数据仓库Hive WayLion 2016年11月8日 (updated: 2020年6月12日)98168 返回大数据案例首页 《大数据课程实验案例:网站用户行为分析—-步骤一:本地数据集上传到数据仓库Hive》 开发团队:厦门大学数据库实验室 联系人:林子雨老
阅读全文
第二章 数据仓的设计与构建
摘要:什么是数据仓 是BI(商业智能)、报表和数据挖掘等应用的基础 大量的数据集合,4个特点主要包括:面向主题的、集成的、相对稳定的、反应历史变化的 数据仓至少需要具备数据获取、数据存储、数据访问3个核心功能,这3个功能的实现过程是数据源到最终决策应用的流转过程。下图为数据流转图: 数据获取和数据存储这两
阅读全文
第一章 大数据技术生态
摘要:大数据技术生态 本文主要抄录《大数据测试技术与实践》 由下而上可以划分为: 数据采集 关系与非关系数据采集组件,分布式消息队列等,如kafka、sqoop 数据存储 分布式存储系统、关系和非关系数据库等,如HDFS、MySQL 管理调度 资源管理和调度YARN,容器Kubernetes、服务协调zo
阅读全文
第七章 大数据测试方法
摘要:与传统测试区别 功能测试 数据质量 主要包括4种测试方法 常用的功能测试方法 数据约束检查 如数据类型、长度、索引、主键等是否符合要求 数据存储检查 是否需要压缩文件形式存储 hive表类型是否合理(内外部表、分区、分桶表) 代码中读取、写入文件目录是否正确 SQL文件检查 开发规范检查。一般公司都
阅读全文