用python进行统计分析（1）

导入库

import numpy as np
import pandas as pd

pip install pandas plotnine #我直接install plotnine报错，不是很懂
import plotnine as pn 

#统计分析工具
from plotnine import data
from scipy import stats
#sciPy 是基于numpy的科学计算库，stats用于统计数据
import statsmodels.api as sm  # 用于回归分析
from statsmodels.formula.api import ols, glm, poisson  
#使用DataFrames 和 formula strings 的方便接口

创建副本&忽略警告&控制输出

import copy 
import warnings 
warnings.filterwarnings("ignore")

#使同一个cell中的结果一次性输出，不用挨个手工print
from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = "all"

练习（使用plotnine自带的mtcars汽车数据集）

#连续变量的常见分布统计量
df.describe()
#指定列的种类以及频数
df["vs"].value_counts()
# apply 的用法
df.apply(np.sum,axis=1) # 对行求和,axis=1 就表示横轴；axis=0表示纵轴
df.apply(np.sum,axis=0) # 对列求和
df.apply(lambda x: sum(x.isnull())).sort_values # 缺失值统计

　　describe 只能统计数值变量，若只想统计部分，可以用astype转换数据类型再describe

df["vs"] = df["vs"].value_astype(str)
df.dtypes
#此时返回的dtype是object
#vs列被视为分类变量，用df["vs"].value.counts()

若要将连续变量和分类变量一起统计可用include
```
print(df.describe(include = "object"))
```

posted @ 2022-08-13 10:26 |Simon| 阅读(659) 评论(0) 收藏举报

刷新页面返回顶部

-simon-

用python进行统计分析（1）

公告