01 2020 档案

摘要:判断是否含有缺失数据 isnull()删除缺失数据 data.dropna() data.dropna(how='all')传入how='all'将只丢弃全为NA的那些行用这种方式丢弃列,只需传入axis=1即可 data.dropna(axis=1, how='all')丢弃一列全部为null的数 阅读全文
posted @ 2020-01-10 20:08 猪啊美 阅读(133) 评论(0) 推荐(0) 编辑
摘要:两样本T检验 p值小于显著值,那么就是p显著,p越小代表两个样本的均值相差越大,否定原有假设则两个变量存在关系,p值越小关系越强 变异代表有差别 总变异为 组内变异 每个连续变量的取值减去各自组内的均值 组间变异 4和8分别是两个组的均值6是总的平均值 阅读全文
posted @ 2020-01-10 14:57 猪啊美 阅读(415) 评论(0) 推荐(0) 编辑
摘要:医院销售数据分析案例关键知识点 读取 data = pd.read_excel('chao.xlsx',dtype='object') 为了防止数据类型不一致,先统一用object类型导入 重新给列命名 dataDF.rename(columns={"购药时间": "销售时间"}, inplace= 阅读全文
posted @ 2020-01-09 11:00 猪啊美 阅读(193) 评论(0) 推荐(0) 编辑
摘要:盖帽法 分箱法 简单随机抽和分层抽 阅读全文
posted @ 2020-01-08 23:36 猪啊美 阅读(208) 评论(0) 推荐(0) 编辑
摘要:变量的度量类型(名义,等级,连续) 名义:性别,民族等 等级:年级,有等级差别的 连续:肯定是数值型的,差值相等 连续变量可以通过分组的方式转化成等级变量来用,有利于消除噪音。 名义变量只有频次和百分比两个统计量 名义变量和等级变量统称分类变量 连续变量 对称用均值,偏移用中位数 数学符号读作c阁马 阅读全文
posted @ 2020-01-07 23:29 猪啊美 阅读(330) 评论(0) 推荐(0) 编辑
摘要:In [49]: frame2 Out[49]: year state pop debt one 2000 Ohio 1.5 NaN two 2001 Ohio 1.7 NaN three 2002 Ohio 3.6 NaN four 2001 Nevada 2.4 NaN five 2002 Ne 阅读全文
posted @ 2020-01-07 17:29 猪啊美 阅读(612) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示