随笔分类 -  pandas相关

会写一些关于pandas的内容
摘要:在数据科学和工程领域,SQLAlchemy和Pandas是两个极其常用的Python库。SQLAlchemy是一个强大的SQL工具包和对象关系映射(ORM)库,而Pandas则是数据处理和分析的必备工具。然而,在使用这两个库进行数据库操作时,特别是当它们的版本之间存在较大差异时,你可能会遇到一些字符 阅读全文
posted @ 2024-12-20 15:05 stone9693 阅读(28) 评论(0) 推荐(0) 编辑
摘要:1. Parquet简介 Parquet是一种开放的列式存储格式,旨在提高大数据处理和分析的效率。 Parquet由Twitter和Cloudera合作开发,并于2015年5月从Apache的孵化器项目毕业,成为Apache的顶级项目。 Parquet旨在高效存储和处理大规模数据集,广泛应用于Had 阅读全文
posted @ 2024-12-20 15:03 stone9693 阅读(88) 评论(0) 推荐(0) 编辑
摘要:我们经常遇到对数据进行排序的需求。比如,我们有一个dataframe,其中有一列salary,我们想要找出排名第二高的员工的工资。 1. 读取数据 dataframe=pd.DataFrame({'salary':[100,200,300,200,]}) 2. rank函数处理 dataframe[ 阅读全文
posted @ 2024-10-10 18:11 stone9693 阅读(64) 评论(0) 推荐(0) 编辑
摘要:pandas中的groupby函数,可以对数据进行分组,然后对分组后的数据进行聚合操作,比如求和、平均值、最大值、最小值等。平时使用groupby处理后,通常使用aggregate函数进行聚合操作。其实,groupby分组之后的聚合操作方法还很多,具体可以参考官方文档。 1. 读取数据 datafr 阅读全文
posted @ 2024-10-10 17:35 stone9693 阅读(94) 评论(0) 推荐(0) 编辑
摘要:dataframe批量处理数据非常方便,但是在遍历时,需要使用json的records格式。而json格式又不方便在python中使用,所以,又需要将json转为list[dict]类型。 1. dataframe转dict,使用json的records格式 import pandas as pd 阅读全文
posted @ 2024-10-09 15:28 stone9693 阅读(157) 评论(0) 推荐(0) 编辑
摘要:1. 读取数据 假设存在如下原始数据 dataframe=pd.DataFrame({'stock_name':['Leetcode','CoronaMasks','Leetcode','Handbags','CoronaMasks','CoronaMasks','CoronaMasks','Cor 阅读全文
posted @ 2024-09-24 16:28 stone9693 阅读(108) 评论(0) 推荐(0) 编辑
摘要:python的数据处理包pandas有两个重要的数据结构,Series和Dataframe。对Series的当前索引中的数据进行处理,很容易,可以用apply方法来完成。但是很多时候,我们会遇到涉及到窗口的数据处理。比如,连续出现三次的数字。这个时候,我们需要获取Series当前索引值得前后多个值。 阅读全文
posted @ 2024-04-23 17:43 stone9693 阅读(65) 评论(0) 推荐(0) 编辑

GitHub账户:https://github.com/stone9693
点击右上角即可分享
微信分享提示