摘要:
import org.apache.spark.SparkConf; import org.apache.spark.SparkException; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.sql.RowFa 阅读全文
摘要:
离线数据处理一般采用T+1模式,即每天陵城处理前一天的数据。对于离线数据的处理,一般采用Sqoop、Flume和Mapreduce等。 离线数据ETL过哦成主要集中在离线数据仓库。离线数据仓库的测试重点: 数据仓库层级 测试目标 测试范围 测试重点 数据接入层 数据完整性、数据正确性 字段、表 1、 阅读全文
摘要:
ETL测试分为离线ETL和实时ETL测试。 实时ETL的测试点: 链路数据的一致性 主要验证每个链路节点数据消费的一致性,重点确保整个链路各个节点的数据处理和消费情况一致,也就是通过对数据消费的分时、分频率对比完成一致性验证。 natural-flow:自然消费的数据流,是源于线上真实的数据消息通道 阅读全文
摘要:
ETL(extract transform load)是一个完整的从数据源,经过转换处理,最终到数据仓库的过程。6 种常见的 ETL 测试类型:1、元数据测试元数据测试指验证表定义是否符合数据模型或者应用程序设计的规范。包括数据类型、长度、索引、约束及元数据的命名规范。demo:数据类型检查:验证表 阅读全文
摘要:
1. 各个服务组件逐一启动/停止 分别启动/停止HDFS组件 hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode 启动/停止YARN yarn-daemon.sh start / stop resourceman 阅读全文
摘要:
配置文件官网:https://hadoop.apache.org/docs/r2.6.1/ (可以是其他版本) 1、配置JDK 需要配置JDK的有hadoop-env.xml mapred-env.xml yarn-env.xml 分别在对应 的 文件中添加或者更新Java_home路径,expor 阅读全文
摘要:
点击上图中的删除按钮,提示: Permission denied: user=dr.who, access=WRITE, inode="/":root:supergroup:drwxr-xr-x,意思是没有删除权限 解决方法: 进入到hadoop目录执行 hadoop-2.9.2/bin/hdfs 阅读全文
摘要:
给linux1 linux2 linux3配置免密登录方式 步骤: 1、分别在linux1 linux2 linux3上执行 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 生成id_dsa id_dsa.pub 2、在linux1机器上执行 cd /root ca 阅读全文
摘要:
numpy: https://files.cnblogs.com/files/goldenwangyi/numpy.docx.zip?t=1654670497 pandas: https://files.cnblogs.com/files/goldenwangyi/padans.docx.zip?t 阅读全文