随笔分类 - python学习
摘要:1.箱型图 它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较 2.适合数据类型 针对连续型变量 图表解读: 1.箱子的大小取决于数据的四分位距,即IQR = Q3 - Q1(Q3: 75%分位数 , Q1: 25%分位数 , Q3和Q1为四分位数)。50%的数据集中于箱体,若箱体太
阅读全文
摘要:1.虚拟变量 定义:虚拟变量(Dummy Variable) 也叫哑变量,它算不上一种变量类型,确切地说,是将多分类变量转换为二分类变量的一种形式。如果数据为定类数据,比如专业、性别等,其数字仅代表类别,数字大小并没有意义,此时可以考虑引入哑变量,将不能够定量处理的变量量化,再进行分析。 2.什么情
阅读全文