摘要:
Hadoop使用一套Map-Reduce的计算框架,解决了大数据处理的难题。本教程ShowMeAI通过几个实例和代码,详细给大家讲解Hadoop使用Map-Reduce进行数据统计的方法。 阅读全文
摘要:
本教程详细讲解Hadoop的安装与环境配置方法,并配有相关软件的下载方法。需要主义的是,本教程的工作环境为Linux系统。 阅读全文
摘要:
对于使用Python快捷地进行数据分析可视化而言,Seaborn是一个简单易用的选择。Seaborn 核心库进行了更高阶的 API 封装,可以轻松地画出配色更加舒服、图形元素的样式更加细腻的图形。 阅读全文
摘要:
本文我们介绍pandas可视化及绘制各种图形的方法,大部分基础图像(条形图、直方图、箱型图、面积图、散点图、饼形图等)绘制只要一行代码就能实现,大大加速了我们的分析效率。 阅读全文
摘要:
数据可视化是以图示或图形格式表示的数据,以更直观方式理解与分析数据。本篇内容,我们给大家介绍数据分析中关于可视化的一些核心知识,包括:各类图形及特点,不同图形选择方法。 阅读全文
摘要:
业务数据分析时,经常要对数据根据1个或多个字段分为不同的组(group)进行分析处理。Pandas中可以借助groupby操作对Dataframe分组操作,本文介绍groupby的基本原理及对应的agg、transform和apply方法与操作。 阅读全文
摘要:
本篇为『图解Pandas数据变换高级函数』,讲解3个函数是map、apply和applymap,更高效地完成数据处理过程中对DataFrame进行逐行、逐列和逐元素的操作。 阅读全文
摘要:
本篇为pandas系列的导语,对『Pandas核心操作函数』进行介绍,讲解Pandas进行数据操作和处理的核心数据结构:Series、DataFrame和Index。 阅读全文
摘要:
Pandas是Python中最常用到的数据操作和分析工具包,它构建在Numpy之上,具备简洁的使用接口和高效的处理效率。数据科学、机器学习AI应用过程,涉及数据清洗和分析的操作也频繁使用到Pandas。 阅读全文
摘要:
n维数组是NumPy的核心概念,大部分数据的操作都是基于n维数组完成的。本系列内容覆盖到1维数组操作、2维数组操作、3维数组操作方法,本篇讲解Numpy与3维、更高维数组的操作。 阅读全文