数据的探索, 缺失值的验证,缺失值的回归差值,缺失值坐标,某一类是否是类别变量,查看类别变量的水平(R)
验证数据集中是否有缺失值 sum(is,na(data)) 返回缺失值的个数
缺失值在哪 which(is.na(data), arr.ind=T) arr.int 返回缺失值相应的行坐标
如果没有which(arr.ind=T) 那么会返回具体的缺失值
直接删除有缺失值的行 data <- na.omit(data)
检验类别变量 is.factor(data) 返回bool类型
查看类别水平 print(factor(data[,1])) 会把所有的数据全部打印出来
levels(data[,1]) 只会打印出类别
回归法,对缺失值进行插补
首先有一个数据集 data ,在这个数据集中有一行有缺失值,有一行完全没有缺失值,一共有两行数据
sign <- which(is.na(data[,2]), arr.ind=T) 得到第二行的数据中与缺失值的行号
data2 <- data[-sign] 得到除去有缺失值的行的数据的子集
data3 <- data[sign] 得到在原始数据集中,包含有缺失值的行所形成的的子集
fit <- lm(y~x,data=data2) 其中 y与x分别为数据框的列的名称,这样得到一个拟合模型
data[sign,2] <- predict(fit, data3) 对缺失值进行预测,并将预测的结果加进原始的数据集, 这里的data3其实只有一列数据
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律