摘要: 前述知识见二值变量间的相关性分析 dc系数,这里作者是用自己名字命名,也是区分度相关系数的一个缩写。 关于dc系数的表达式我们可以使用如下的表达式,该表达式要比第一个表达式更优。因为区分度d实际上是一个平方项,开发之后的sqrt(d)能更好的刻画区分度,所以dc系数为: 即我们用新的区分度sqrt( 阅读全文
posted @ 2018-12-10 14:56 巴蜀秀才 阅读(872) 评论(0) 推荐(0) 编辑
摘要: 二值类别变量相关性分析 目前,在相关性分析领域,主要使用的技术指标有pearson相关系数、spearman相关系数、kendall相关系数。三者有一个共同的特点,它们都是通过两组数据的元素大小来刻画相关性,也即同增同减的性质。在分类、聚类领域中,为了弥补上述相关性的不足,科学家将距离、方向引入相关 阅读全文
posted @ 2018-12-10 14:32 巴蜀秀才 阅读(10837) 评论(4) 推荐(0) 编辑
摘要: 本题来自于牛客网,答案为自己训练出,仅供参考。牛客网链接:https://www.nowcoder.com/activity/oj 题目一: 查找最晚入职员工的所有信息 CREATE TABLE `employees` ( `emp_no` int(11) NOT NULL, `birth_date 阅读全文
posted @ 2018-10-25 00:02 巴蜀秀才 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 集群的启动:$HADOOP_HOME/sbin/start-all.sh jps检测进程: 单启动HDFS:$HADOOP_HOME/sbin/start-dfs.sh 单启动YARN:$HADOOP_HOME/sbin/start-yarn.sh 如果你的Hadoop一直有如下警告: 则请检查你的 阅读全文
posted @ 2018-09-24 15:24 巴蜀秀才 阅读(1906) 评论(0) 推荐(0) 编辑
摘要: seaborn官方文档:http://seaborn.pydata.org/api.html 绘制多变量的分布图 先绘制两个变量的分布图,其中X变量为分类变量,Y为数值变量。 运行结果: 注意:观察上图不难发现,带图默认是有抖动的,即 jitter=True 。下面用 swarmplot 绘制带分布 阅读全文
posted @ 2018-08-14 14:20 巴蜀秀才 阅读(6093) 评论(0) 推荐(0) 编辑
摘要: 观测两个变量之间的分布关系 最好用散点图 两个便量间的分布关系: 运行结果: 用 “类蜂窝” 结构展示数据的分布: 运行结果: 多维数据间的分布关系 运行结果: 绘制回归关系 regplot()和lmplot()都可以绘制回归关系,推荐regplot() 运行结果: 用DataFrame数据画图 用 阅读全文
posted @ 2018-08-13 23:31 巴蜀秀才 阅读(9208) 评论(1) 推荐(0) 编辑
摘要: 绘制数据的直方图及其概率密度曲线 这里可以使用 seaborn.displot() 来绘制,如果指定kde参数为False,就不会画概率密度曲线 运行结果: 下面展示没有概率密度曲线的直方图和用gamma拟合的概率密度曲线: 运行结果: 在一个画布上绘制多条曲线 运行结果: 我们可以恢复seabor 阅读全文
posted @ 2018-08-13 22:02 巴蜀秀才 阅读(17282) 评论(0) 推荐(1) 编辑
摘要: 绘制bar图,类似于直方图: 运行结果: 此时我们可以调整参数,让图更美观。 运行结果: 在很多时候,我们更希望这种图可以横着画,我们可以在画图的时候使用 ax.barh() 去画,其他命令一样。 效果如下:(这里是pycharm的效果,右边显示不完全) 绘制散点图 ax.scatter() 用来绘 阅读全文
posted @ 2018-08-13 10:28 巴蜀秀才 阅读(1465) 评论(0) 推荐(0) 编辑
摘要: 打开画布,传入x,y的值,可以简单的画出曲线图 运行结果: 画出来的图像简单,且单调。一般为了美观我们需要更多的参数指定。 对x轴的一些操作 如下案例: 运行结果: 添加横坐标标签和纵坐标标签,以及标题 运行结果: 在一个画布上花多个子图 运行结果: 此时,也许你会疑惑,我们想将坐标标识等示例画到第 阅读全文
posted @ 2018-08-12 22:55 巴蜀秀才 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 数据聚合(GroupBy) 输出结果: 令x = group.sum(), 则可以取值为: x.values x.values Out[20]: array([2.75, 1.3 , 0.56, 4.2 , 5.56]) 等级分组 输出结果: 组迭代 链式转换 输出结果: 阅读全文
posted @ 2018-08-03 16:23 巴蜀秀才 阅读(2049) 评论(0) 推荐(0) 编辑