03 2024 档案
摘要:在数据分析工作中,针对百万,千万级别的数据进行分析是常有的事情,因此,分析代码性能的重要性不容忽视,能够有一个方便快速的测试函数性能的方法,对于我们快速发现性能瓶颈,及时优化,提高项目的开发效率至关重要。 本文介绍如何通过Python装饰器来实现性能计时工具,帮助我们在不改变现有代码的基础上,随时测
阅读全文
摘要:重试机制在编程中是比较常见的场景,主要被用于处理那些可能由于临时性故障或网络波动等原因而失败的操作。 本文介绍如何通过Python装饰器来实现重试机制,从而能够在尽量少修改现有代码的基础上,给其中某些函数加上重试机制。 1. 概要 关于Python的装饰器,只是一个语法糖,原理也比较简单,这里不在赘
阅读全文
摘要:print是我们平时写些python小工具时,最常用的调试工具。因为开发代码时,常常通过print将执行流程、变量的值以及其他关键信息输出到控制台来观察,以便了解程序执行情况和调试bug。 但是,print的输出过于简单,在输出变量内容,函数调用,执行过程等相关信息时,往往需要自己手动去补充很多的输
阅读全文
摘要:Numpy其实是最早的处理数据的Python库,它的核心ndarray对象,是一个高效的n维数组结构。 通过这个库,可以高效的完成向量和矩阵运算,由于其出色的性能,很多其他的数据分析,科学计算或者机器学习相关的Python库都或多或少的依赖于它。 Pandas就是其中之一,Pandas充分利用了Nu
阅读全文
摘要:在数据分析相关的工作中,Pandas无疑是一个强大的工具,它的易用性和灵活性广受青睐。然而,随着数据量的不断增长和计算需求的日益复杂,Pandas代码的性能问题也逐渐浮出水面。如何让Pandas代码运行得更快、更高效,成为了每一个人使用者都需要面对的挑战。 今天,本文就一个简化版的实际分析案例,来一
阅读全文
摘要:dataclass是从Python3.7版本开始,作为标准库中的模块被引入。随着Python版本的不断更新,dataclass也逐步发展和完善,为Python开发者提供了更加便捷的数据类创建和管理方式。 dataclass的主要功能在于帮助我们简化数据类的定义过程。本文总结了几个我平时使用较多dat
阅读全文
摘要:我们在使用pandas处理完数据之后,最终总是要把数据作为一个文件保存下来,那么,保存数据最常用的文件是什么呢?我想大部分人一定会选择csv或者excel。 刚接触数据分析时,我也是这么选择的,不过,今天将介绍几种不一样的存储数据的文件格式。这些文件格式各有自己的一些优点,希望本文能让你以后的数据存
阅读全文
摘要:Pandas无疑是我们数据分析时一个不可或缺的工具,它以其强大的数据处理能力、灵活的数据结构以及易于上手的API赢得了广大数据分析师和机器学习工程师的喜爱。 然而,随着数据量的不断增长,如何高效、合理地管理内存,确保Pandas DataFrame在运行时不会因内存不足而崩溃,成为我们每一个人必须面
阅读全文
摘要:pandas的DataFrame可以通过设置参数使得在jupyter notebook中显示的更加美观,但是,将DataFrame的数据导出excel时,却只能以默认最朴素的方式将数据写入excel。 本文介绍一种简单易用,让导出的excel更加美观的方法。 1. 概要 首先,引入一个库StyleF
阅读全文
摘要:F-String(格式化字符串字面值)是在Python 3.6中引入的,它是一种非常强大且灵活的字符串格式化方法。 它允许你在字符串中嵌入表达式,这些表达式在运行时会被求值并转换为字符串,这种特性使得F-String在编写Python代码时能够更简洁、更直观地处理字符串。 本文总结了5个实用的F-S
阅读全文
摘要:机器学习(ML)作为目前一个比较火领域,提供了许多有趣且高薪的工作和机会。 无论你是刚刚踏入机器学习领域的新手,还是已经积累了一定经验的从业者,面试都是检验你技能和知识的重要环节。本文将梳理一些常见的面试问题,让你在面试中更加自信从容。 1. 基础知识 想要从事机器学习工作,至少应该熟悉: 数学基础
阅读全文
摘要:pathlib 模块是在Python3.4版本中首次被引入到标准库中的,作为一个可选模块。从Python3.6开始,内置的 open 函数以及 os 、 shutil 和 os.path 模块中的各种函数都可以正确地使用 pathlib.Path 对象了。 最初,pathlib给人的感觉只是os.p
阅读全文
摘要:一般来说,我们先用pandas分析数据,然后用matplotlib之类的可视化库来显示分析结果。而pandas库中有一个强大的工具--plot函数,可以使数据可视化变得简单而高效。 1. plot 函数简介 plot函数是pandas中用于数据可视化的一个重要工具,通过plot函数,可以轻松地将Da
阅读全文
摘要:pandas中的cut函数可将一维数据按照给定的区间进行分组,并为每个值分配对应的标签。其主要功能是将连续的数值数据转化为离散的分组数据,方便进行分析和统计。 1. 数据准备 下面的示例中使用的数据采集自王者荣耀比赛的统计数据。数据下载地址:https://databook.top/。 导入数据:
阅读全文
摘要:处理大量数据时,经常需要对数据进行分组和汇总,groupby为我们提供了一种简洁、高效的方式来实现这些操作,从而简化了数据分析的流程。 1. 分组聚合是什么 分组是指根据一个或多个列的值将数据分成多个组,每个组包含具有相同键值(这里的键值即用来分组的列值)的数据行。 聚合或者汇总则是指,在分组后,可
阅读全文
摘要:数据过滤在数据分析过程中具有极其重要的地位,因为在真实世界的数据集中,往往存在重复、缺失或异常的数据。pandas提供的数据过滤功能可以帮助我们轻松地识别和处理这些问题数据,从而确保数据的质量和准确性。 今天介绍的query函数,为我们提供了强大灵活的数据过滤方式,有助于从复杂的数据集中提取有价值的
阅读全文