摘要: pip 安装pyqt5的时候,发现designer无法运行 也就是Qt动态链接库的问题,当加载libqxcb.so库的时候,还需要加载libxcb-xinerama库。 切换到报错libxcb.so所在目录: #替换为自己的报错目录 $ cd /home/brainiac/Qt/Tools/QtCr 阅读全文
posted @ 2021-04-16 09:22 shmily墨鱼 阅读(2238) 评论(0) 推荐(0) 编辑
摘要: 前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展,pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。 12.1 分类数据 这一节介绍的是pandas的分类类型。我会向你展示通过使用它,提高性能和内存的使用率。我还会介绍一 阅读全文
posted @ 2021-04-16 06:48 shmily墨鱼 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间 阅读全文
posted @ 2021-04-16 06:42 shmily墨鱼 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。 关系型数据库和SQL(St 阅读全文
posted @ 2021-04-16 06:26 shmily墨鱼 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http:// 阅读全文
posted @ 2021-04-16 06:23 shmily墨鱼 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 在许多应用中,数据可能分散在许多文件或数据库中,存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。 首先,我会介绍pandas的层次化索引,它广泛用于以上操作。然后,我深入介绍了一些特殊的数据操作。在第14章,你可以看到这些工具的多种应用。 8.1 层次化索引 层次化索引(hierar 阅读全文
posted @ 2021-04-16 06:16 shmily墨鱼 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时,存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对 阅读全文
posted @ 2021-04-16 06:12 shmily墨鱼 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出,虽然别的库中也有不少以此为目的的工具。 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源。 6.1 读写文本格式的数据 pandas提供了一 阅读全文
posted @ 2021-04-16 06:10 shmily墨鱼 阅读(58) 评论(0) 推荐(0) 编辑
摘要: pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建 阅读全文
posted @ 2021-04-16 06:08 shmily墨鱼 阅读(40) 评论(0) 推荐(0) 编辑
摘要: NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数( 阅读全文
posted @ 2021-04-16 06:05 shmily墨鱼 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 本章讨论Python的内置功能,这些功能本书会用到很多。虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的。 我们会从Python最基础的数据结构开始:元组、列表、字典和集合。然后会讨论创建你自己的、可重复使用的Python函数。最后, 阅读全文
posted @ 2021-04-16 06:04 shmily墨鱼 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 第2章 Python语法基础,IPython和Jupyter Notebooks 当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并 阅读全文
posted @ 2021-04-16 06:01 shmily墨鱼 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 第1章 准备工作 1.1 本书的内容 本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的 阅读全文
posted @ 2021-04-16 06:00 shmily墨鱼 阅读(56) 评论(0) 推荐(0) 编辑