摘要:
在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。
下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice) 阅读全文
摘要:
R语言的强大之处在于统计和作图。其中统计部分的内容很多很强大,因此会在以后的实例中逐步介绍;而作图部分的套路相对来说是比较固定的,现在可以先对它做一个总体的认识。
在上一篇文章中,介绍了使用graphics库进行绘图的方法,而本文将引入一个更为强大的库 --- ggplot2,它能做出各式各样,非常酷炫的统计图(甚至地图,热图等)。
本文将结合一个实际项目中的例子讲解如何使用ggplot2绘图。 阅读全文
摘要:
数据可视化是数据挖掘非常重要的一个环节,它不单在查阅了解数据环节使用到,在整个数据挖掘的流程中都会使用到。
因为数据可视化不单可以形象地展示数据,让你对数据有更好的总体上的了解,而且还可以让你清晰的将自己的观点表述出来。因此不仅仅是在项目实施环节,在与客户谈需求或者写论文时,数据可视化也能帮到你。 阅读全文
摘要:
本文讲解如何使用 R 语言对数据集进行总体上的了解。
在进行数据挖掘之前,我们有必要对挖掘的数据集对象有一个总体的了解。本文采用具体实例讲解的方式,详细演示对一个数据集的分析过程。 阅读全文