数据可视化高阶技巧——以哈伯曼癌症生存数据为例
什么是数据可视化?
“一千个读者就有一千个哈姆雷特。”这句话套在数据分析也是一样的,不同的人他对于数据的理解也是不同的。数据可视化可以帮助我们以更简单的方式去分析数据和找到数据背后隐藏的信息。资料可视化所涉及的知识有很多,我试图将Harberman关于癌症存活的数据结合起来,来看一下数据可视化如何帮助我们从一堆混乱的数据中发现隐藏的信息,让我们开始吧!
为什么要做数据可视化?
数据可视化是一种可以通过数据创建故事的方式。当数据很复杂并且需要了解微观细节至关重要时,最好的方法是通过数据可视化图表的视觉效果来分析数据。
视觉效果可用于两个目的:
1、探索性数据分析:数据分析师、统计学家和数据科学家使用它来更好地理解数据。它用于探索隐藏在数据中的信息和趋势。
2、解释性数据分析:一旦数据分析师理解了数据并找到了他们的结果,传达他们想法的最佳方式就是通过视觉效果。数据可视化就像是创作一个故事,以达到吸引观众阅读的目的。
哈伯曼生存数据的探索性分析
这数据集已包括了从1958年到1970年间,在芝加哥大学的某所医院进行的一项研究案例,该研究主要针对接受过乳腺癌手术的患者的生存情况。
属性包括:
手术时患者年龄(数字)
患者的手术年份(年份 – 1900,数字)
检测到的阳性腋窝淋巴结数量(数字)
生存状态(类别属性)
1 = 患者存活 5 年或更长时间
2 = 患者在 5 年内死亡
让我们首先从使用统计来理解数据开始:
我们看到有 306 行和 4 列。进一步查看属性后,我们了解了数据的分布方式。为了进一步了解每个类的示例数量,让我们看看不同的图。
直方图
这里可以看到两种状态下的患者都是在30到 80年在两个年龄段之间重叠,而40-60岁这个年龄段的比例都是最高的,60-80岁年龄段的人生存和死亡的机会相等,80岁以上的人无法存活的可能性更高。但是,仅凭年龄无法判断一个人是否会存活。
箱形图
它能够提供给我们两种生存状态下,淋巴结数量的最大值、最小值、中位数、四分位数分布以及异常值分布情况。
散点图
我们从零散的点看,无论在哪一年,有0个淋巴结的患者都是幸存者。这是否意味着只要是0个淋巴结的患者都能确保生存?
小提琴图
小提琴图用于显示数据分布和概率密度,中间的黑色粗条表示四分位数范围,延伸的细黑线表示 95% 的信任范围,而白点表示中位数,从上图可以看出,两种生存状态下幸存者的淋巴结数量分布不同。
根据上述的案例,我们从视觉效果中学到很多东西,为了方便大家更好地学习数据可视化,我整理了一些必备的数据可视化工具来帮助您入门。
数据可视化工具
Tableau:可视化功能非常强大,主要应用在商业图表上。
Power BI:微软旗下的可视化工具,其功能也是十分强大,可用于做多维分析等。
Excel:这个不用多说了,职场必备的数据分析与可视化工具。
Smartbi智分析:这是国产数据分析工具里用的非常广泛的工具,在线上就可以直接使用,无需安装客户端。图形化界面也非常丰富,包含了地图可视化、词云图、桑基图等个性化的图形,可视化功能非常强大。
数据可视化方法论
配色方案:虽然颜色可以为图表增添美感,但通常最好使用颜色来突出重要的细节,而不仅仅是为了吸引人,太多的颜色会破坏着色的目的,而使用单一颜色或一种颜色则会阅读者。此外,在设计视觉效果时还要考虑视障人士,直观地使用颜色。例如:对于情感分析,我们可以使用绿色表示积极情绪,红色表示消极情绪,黑白灰表示中性情绪。
图形使用:不一样的图形可以表达出不同的含义,例如饼状图表示占比,线图表示趋势,柱图可表示对比,使用图形时要根据图形的特性去适当运用。
使用注释:在需要的地方使用标签进行注释,可以让图表里的信息更加全面,但切记不要造成图表混乱。
使用交互式图表:如果数据量比较大,变量非常多,可以使用交互式报表进行动态展示,例如BI图表。
删除不重要的信息:从图表中删除可能分散观众注意力的不必要的信息,不要在单个视觉对象中将多个视图组合到难以理解的程度。
制作一个完整的故事:把数据可视化的过程当成是故事的创作过程,让读者可以沉浸集中并能领会到作者的意图。