摘要:
项目实施计划方案 参考:豆丁网 阅读全文
摘要:
分布式数据库笔记 分布式的基本要求 分布式系统的优点 分布式系统的缺点 区别: 分布式数据系统的分类 体系架构 数据分片(完备性、重构条件、不相交条件) 分布式数据库组件 接受全局管理系统命令 做本地数据库管理 4.通信管理系统 管理全局与局部管理系统直接的通讯协议 每个分片直接的通信 集中式数据库 阅读全文
摘要:
SQL优化——ORACLE 索引是由Oracle维护的可选结构,为数据提供快速的访问。准确地判断在什么地方需要使用索引是困难的,使用索引有利于调节检索速度。 当建立一个索引时,必须指定用于跟踪的表名以及一个或多个表列。一旦建立了索引,在用户表中建立、更改和删除数据库时, Oracle就自动地维护索引 阅读全文
摘要:
INNER JOIN & OUTER JOIN 参考:sql 阅读全文
摘要:
员工离职预测 library(dplyr)library(psych)library(ggplot2) library(randomForest) str(train) #删除 常量 #重编码 #Age 和 Attrition #小结: #Department 和 JobLevel #小结:不同部门 阅读全文
摘要:
iris数据集预测(对比随机森林和逻辑回归算法) 随机森林 library(randomForest) #挑选响应变量 index <- subset(iris,Species != "setosa")ir <- droplevels(index) set.seed(1) ind<-sample(2 阅读全文
摘要:
回到顶部 参考:博客园 阅读全文
摘要:
数据探索 1.数据概况 2.数据离散程度 3.分布形状的探索 4.分布情况探索 5.相关性 6.分类型变量 7.连续变量 数据准备 1. 数据概况 2.离散程度度量 2.1 方差 总体方差计算公式: 为总体方差, 为变量, 为总体均值, 为总体例数。 2.2 标准差 公式为 2.3 极差 半极差 上 阅读全文
摘要:
假设检验 以样本数据的累计频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布族。 H0:数据集符合正态分布,H1:样本所来自的总体分布不符合正态分布。 令F0(x)表示预先假设的理论分布,Fn(x)表示随机样本的累计概率(频率)函数 D值越小,越接近0,表示样本数据越接近正态 阅读全文
摘要:
On Box-Cox transform in regression models November 13, 2012 November 13, 2012 By arthur charpentier A few days ago, a former student of mine, David, c 阅读全文