摘要:
一、线性关系数据可视化lmplot( ) 表示对所统计的数据做散点图,并拟合一个一元线性回归关系。 lmplot(x, y, data, hue=None, col=None, row=None, palette=None,col_wrap=None, height=5, aspect=1,mark 阅读全文
摘要:
一、散点图stripplot( ) 与swarmplot() 1.分类散点图stripplot( ) 用法stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,jitter=True, dodge=Fals 阅读全文
摘要:
系统自带的数据表格(存放在github上https://github.com/mwaskom/seaborn-data),使用时通过sns.load_dataset('表名称')即可,结果为一个DataFrame。 一、直方图distplot() distplot(a, bins=None, his 阅读全文
摘要:
seaborn是基于matplotlib的python数据可视化库,提供更高层次的API封装,包括一些高级图表可视化等工具。 使用seaborn需要先安装改模块pip3 install seaborn 。 一、风格style 包括set() / set_style() / axes_style() 阅读全文
摘要:
蒙特卡洛(Monte Carlo)方法,又称随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法。该方法使用随机数(或更常见的伪随机数)来解决很多计算问题,将所求解的问题同一定的概率模型相联系,用电子计算机实现模拟或抽样,以获得问题的近似解。 基本原理 蒙特卡罗方法通过抓住事物运动的几 阅读全文
摘要:
聚类分析(cluster analysis)是将一组研究对象分为相对同质的群组(clusters)的统计分析技术,即将观测对象的群体按照相似性和相异性进行不同群组的划分,划分后每个群组内部各对象相似度很高,而不同群组之间的对象彼此相异度很高。 回归、分类、聚类的区别 : 有监督学习 >> 回归、分类 阅读全文
摘要:
分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术建立分类模型,从而对没有分类的数据进行分类的分析方法。 分类问题的应用场景:用于将事物打上一个标签,通常结果为离散值。例如判断一副图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上。 基 阅读全文
摘要:
一、数学建模概述 监督学习:通过已有的训练样本进行训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出。监督学习根据输出数据又分为回归问题(regression)和分类问题(classfication),回归问题的输出通常是连续的数值,分类问题的输出通常是几个特定的数值。 非监督学习:根 阅读全文
摘要:
在某些比较和评价的指标处理中经常需要去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。因此需要通过一定的方法进行数据标准化,将数据按比例缩放,使之落入一个小的特定区间。 一、标准化 1.0-1标准化 方法:将样本中的最大值、最小值记录下来,并通过max-min 阅读全文
摘要:
一、缺失值 1.空值判断 isnull()空值为True,非空值为False notnull() 空值为False,非空值为True 0 False 1 False 2 False 3 True 4 False 5 True dtype: bool 0 1 1 2 2 3 4 hello dtype 阅读全文