01 2020 档案
摘要:判断是否含有缺失数据 isnull()删除缺失数据 data.dropna() data.dropna(how='all')传入how='all'将只丢弃全为NA的那些行用这种方式丢弃列,只需传入axis=1即可 data.dropna(axis=1, how='all')丢弃一列全部为null的数
阅读全文
摘要:两样本T检验 p值小于显著值,那么就是p显著,p越小代表两个样本的均值相差越大,否定原有假设则两个变量存在关系,p值越小关系越强 变异代表有差别 总变异为 组内变异 每个连续变量的取值减去各自组内的均值 组间变异 4和8分别是两个组的均值6是总的平均值
阅读全文
摘要:医院销售数据分析案例关键知识点 读取 data = pd.read_excel('chao.xlsx',dtype='object') 为了防止数据类型不一致,先统一用object类型导入 重新给列命名 dataDF.rename(columns={"购药时间": "销售时间"}, inplace=
阅读全文
摘要:变量的度量类型(名义,等级,连续) 名义:性别,民族等 等级:年级,有等级差别的 连续:肯定是数值型的,差值相等 连续变量可以通过分组的方式转化成等级变量来用,有利于消除噪音。 名义变量只有频次和百分比两个统计量 名义变量和等级变量统称分类变量 连续变量 对称用均值,偏移用中位数 数学符号读作c阁马
阅读全文
摘要:In [49]: frame2 Out[49]: year state pop debt one 2000 Ohio 1.5 NaN two 2001 Ohio 1.7 NaN three 2002 Ohio 3.6 NaN four 2001 Nevada 2.4 NaN five 2002 Ne
阅读全文