摘要:
前⾯部分关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合⾼级⽤户的功能。本篇就深⼊学习pandas的⾼级功能。 一、分类数据 接下来要说的是pandas的分类类型。通过使⽤它,可提⾼性能和内存的使⽤率。后面还会介绍⼀些在统计和机器学习 阅读全文
摘要:
时间序列(time series)数据是⼀种重要的结构化数据形式,应⽤于多个领域,包括⾦融学、经济学、⽣态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成⼀段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(⽐如每15秒、每5分钟、每⽉出现⼀次)。时间 阅读全文
摘要:
对数据集进⾏分组并对各组应⽤⼀个函数(⽆论是聚合还是转换),通常是数据分析⼯作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或⽣成透视表。pandas提供了⼀个灵活⾼效的gruopby功能,它使你能以⼀种⾃然的⽅式对数据集进⾏切⽚、切块、摘要等操作。 关系型数据库和SQL(St 阅读全文
摘要:
信息可视化(也叫绘图)是数据分析中最重要的⼯作之⼀。它可能是探索过程的⼀部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做⼀个可交互的数据可视化也许是⼯作的最终⽬标。Python有许多库进⾏静态或动态的数据可视化,但这⾥主要关注于matplotlib(http://matplotlib.org/)和基于它的库。matplotlib是⼀个⽤于创建出版质量图表的桌⾯绘图... 阅读全文
摘要:
在许多应⽤中,数据可能分散在许多⽂件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的⽅法。⾸先,介绍pandas的层次化索引,它⼴泛⽤于以上操作。然后,深⼊介绍了⼀些特殊的数据操作。 一、层次化索引 层次化索引(hierarchical indexing)是pandas的⼀项重 阅读全文
摘要:
在数据分析和建模的过程中,要花很多时间在数据准备上:加载、清理、转换以及重塑。这些⼯作会占到分析师时间的80%或更多。有时,存储在⽂件和数据库中的数据的格式不适合某个特定的任务。pandas和内置的Python标准库提供了⼀组⾼级的、灵活的、快速的⼯具,可以让你轻松地将数据规变为想要的格式。接下来会 阅读全文
摘要:
输⼊输出通常可以划分为⼏个⼤类:读取⽂本⽂件和其他更⾼效的磁盘存储格式,加载数据库中的数据,利⽤Web API操作⽹络资源。 一、读写文本格式的数据 pandas提供了⼀些⽤于将表格型数据读取为DataFrame对象的函数。表6-1对它们进⾏了总结,其中read_csv和read_table可能会是 阅读全文
摘要:
pandas含有使数据清洗和分析⼯作变得更快更简单的数据结构和操作⼯具。pandas经常和其它⼯具⼀同使⽤,如数值计算⼯具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和 阅读全文
摘要:
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。⼤多数提供科学计算的包都是⽤NumPy的数组作为构建基础。NumPy的部分功能如下: ndarray,⼀个具有⽮量算术运算和复杂⼴播能⼒的快速且节省空间的多维数组。 ⽤于对整组数据进⾏快速运算的标准数学函数(⽆ 阅读全文
摘要:
一、数据结构和序列:Python的数据结构简单⽽强⼤。通晓它们才能成为熟练的Python程序员。 1、元组:元组是⼀个固定⻓度,不可改变的Python序列对象。创建元组的最简单⽅式,是⽤逗号分隔⼀列值:tup = 4, 5, 6tup # 输出:(4, 5, 6)当⽤复杂的表达式定义元组,最好将值放 阅读全文