拾浅 - 博客园

2023年10月3日

摘要：第2章中，我们学习了IPython shell和Jupyter notebook的基础。本章中，我们会探索IPython更深层次的功能，可以从控制台或在jupyter使用。 B.1 使用命令历史 Ipython维护了一个位于磁盘的小型数据库，用于保存执行的每条指令。它的用途有：只用最少的输入，就能阅读全文

posted @ 2023-10-03 18:28 拾浅阅读(49) 评论(0) 推荐(0)

附录A NumPy高级应用

摘要：在这篇附录中，我会深入NumPy库的数组计算。这会包括ndarray更内部的细节，和更高级的数组操作和算法。本章包括了一些杂乱的章节，不需要仔细研究。 A.1 ndarray对象的内部机理 NumPy的ndarray提供了一种将同质数据块（可以是连续或跨越）解释为多维数组对象的方式。正如你之前所看阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(59) 评论(0) 推荐(0)

第14章数据分析案例

摘要：本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。 14.1 来自Bitly的USA.go 阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(27) 评论(0) 推荐(0)

第13章 Python建模库介绍

摘要：本书中，我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间，这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决，比如普通的最小二乘回归，其它问题可能需要复杂的机器学习方法。幸运的是，Python已经成为了阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(58) 评论(0) 推荐(0)

第12章 pandas高级应用

摘要：前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展，pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。 12.1 分类数据这一节介绍的是pandas的分类类型。我会向你展示通过使用它，提高性能和内存的使用率。我还会介绍一阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(41) 评论(0) 推荐(0)

第11章时间序列

摘要：时间序列（time series）数据是一种重要的结构化数据形式，应用于多个领域，包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的（比如每15秒、每5分钟、每月出现一次）。时间阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(68) 评论(0) 推荐(0)

第10章数据聚合与分组运算

摘要：对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（St 阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(89) 评论(0) 推荐(0)

第09章绘图和可视化

摘要：信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http:// 阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(46) 评论(0) 推荐(0)

第08章数据规整：聚合、合并和重塑

摘要：在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。首先，我会介绍pandas的层次化索引，它广泛用于以上操作。然后，我深入介绍了一些特殊的数据操作。在第14章，你可以看到这些工具的多种应用。 8.1 层次化索引层次化索引（hierar 阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(38) 评论(0) 推荐(0)

第07章数据清洗和准备

摘要：在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对阅读全文

posted @ 2023-10-03 18:25 拾浅阅读(44) 评论(0) 推荐(0)

liushuixiu

公告