随笔分类 - pandas相关
会写一些关于pandas的内容
摘要:在数据科学和工程领域,SQLAlchemy和Pandas是两个极其常用的Python库。SQLAlchemy是一个强大的SQL工具包和对象关系映射(ORM)库,而Pandas则是数据处理和分析的必备工具。然而,在使用这两个库进行数据库操作时,特别是当它们的版本之间存在较大差异时,你可能会遇到一些字符
阅读全文
摘要:1. Parquet简介 Parquet是一种开放的列式存储格式,旨在提高大数据处理和分析的效率。 Parquet由Twitter和Cloudera合作开发,并于2015年5月从Apache的孵化器项目毕业,成为Apache的顶级项目。 Parquet旨在高效存储和处理大规模数据集,广泛应用于Had
阅读全文
摘要:我们经常遇到对数据进行排序的需求。比如,我们有一个dataframe,其中有一列salary,我们想要找出排名第二高的员工的工资。 1. 读取数据 dataframe=pd.DataFrame({'salary':[100,200,300,200,]}) 2. rank函数处理 dataframe[
阅读全文
摘要:pandas中的groupby函数,可以对数据进行分组,然后对分组后的数据进行聚合操作,比如求和、平均值、最大值、最小值等。平时使用groupby处理后,通常使用aggregate函数进行聚合操作。其实,groupby分组之后的聚合操作方法还很多,具体可以参考官方文档。 1. 读取数据 datafr
阅读全文
摘要:dataframe批量处理数据非常方便,但是在遍历时,需要使用json的records格式。而json格式又不方便在python中使用,所以,又需要将json转为list[dict]类型。 1. dataframe转dict,使用json的records格式 import pandas as pd
阅读全文
摘要:1. 读取数据 假设存在如下原始数据 dataframe=pd.DataFrame({'stock_name':['Leetcode','CoronaMasks','Leetcode','Handbags','CoronaMasks','CoronaMasks','CoronaMasks','Cor
阅读全文
摘要:python的数据处理包pandas有两个重要的数据结构,Series和Dataframe。对Series的当前索引中的数据进行处理,很容易,可以用apply方法来完成。但是很多时候,我们会遇到涉及到窗口的数据处理。比如,连续出现三次的数字。这个时候,我们需要获取Series当前索引值得前后多个值。
阅读全文