12 2019 档案
摘要:时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。时间序列数据的意义取决于具体的应用场景,主要有以下几种: 时间戳(timestamp),特定的时刻。 固定时期(period),如2007年1月或2010年全年。 时间间
阅读全文
摘要:对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常是计算分组统计或生成透视表。pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。 关系型数据库和SQL能够如此
阅读全文
摘要:在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本部分关注可以聚合、合并、重塑数据的方法。 1、层次化索引 层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低纬度形式处理
阅读全文
摘要:在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑上。这些工作会占到分析时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。研究者都选择使用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式
阅读全文
摘要:因为工作的原因,需要用到VBA,碰到读图片和写图片: Sub Macro01() '从工作表中保存图片 Application.ScreenUpdating = False Dim pth, shp, n pth = ThisWorkbook.Path & "\导出图片\" For Each shp
阅读全文
摘要:访问数据是使用本书所介绍的这些工具的第一步。这里会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用WEB API操作网络资源。 1、读写文本格式的数据 pandas提供了一些
阅读全文