别再低效筛选数据了!试试pandas query函数
1.【pandas基础】--数据读取2.【pandas基础】--核心数据结构3.【pandas基础】--数据检索4.【pandas基础】--数据整理5.【pandas基础】--数据修改6.【pandas基础】--数据拆分与合并7.【pandas基础】--数据排序8.【pandas基础】--数据类型9.【pandas基础】--日期处理10.【pandas基础】--索引和轴11.【pandas基础】--数据统计12.【pandas小技巧】--创建测试数据13.【pandas小技巧】--读取多个文件14.【pandas小技巧】--反转行列顺序15.【pandas小技巧】--修改列的名称16.【pandas小技巧】--按类型选择列17.【pandas小技巧】--随机挑选子集18.【pandas小技巧】--category类型补充19.【pandas小技巧】--统计值作为新列20.【pandas小技巧】--数据转置21.【pandas小技巧】--日期相关处理22.【pandas小技巧】--列值的映射23.【pandas小技巧】--字符串转数值24.【pandas小技巧】--缺失值的列25.【pandas小技巧】--拆分列26.【pandas小技巧】--花哨的DataFrame27.【pandas小技巧】--DataFrame的显示样式28.【pandas小技巧】--DataFrame的显示参数29.pandas高效读取大文件的探索之路30.分组聚合不再难:Pandas groupby使用指南
31.别再低效筛选数据了!试试pandas query函数
32.掌握pandas cut函数,一键实现数据分类33.pandas plot函数:数据可视化的快捷通道34.Pandas导出美化技巧,让你的Excel更出众35.pandas DataFrame内存优化技巧:让数据处理更高效36.pandas:如何保存数据比较好?37.Pandas:如何让你的代码性能飙升38.借助Numpy,优化Pandas的条件检索代码39.最近常用的几个【行操作】的Pandas函数40.pandas:时间序列数据的周期转换数据过滤在数据分析过程中具有极其重要的地位,因为在真实世界的数据集中,往往存在重复、缺失或异常的数据。pandas
提供的数据过滤功能可以帮助我们轻松地识别和处理这些问题数据,从而确保数据的质量和准确性。
今天介绍的query
函数,为我们提供了强大灵活的数据过滤方式,有助于从复杂的数据集中提取有价值的信息,提高分析的效率。
1. 准备数据
下面的示例中使用的数据采集自链家网的真实房屋成交数据。
数据下载地址:https://databook.top/。
导入数据:
import pandas as pd
fp = "D:/data/南京二手房交易/南京建邺区.csv"
df = pd.read_csv(fp)
df.head()
2. query 使用示例
query
提供的查询接口非常灵活,可以用类似sql
的方式组合查询条件。
2.1. 比较
比较是最常用的过滤手段,
比如:相等比较,检索2023年3月1日的成交数据。
df.query('dealDate == "2023.03.01"').head()
同样,也可以进行大于或者小于的比较:
# 成交总价大于1000万的房屋
df.query('totalPrice > 1000').head()
# 成交总价小于100万的房屋
df.query('totalPrice < 100').head()
2.2. 多条件组合
在query
函数中组合查询条件也非常简单,它的查询字符串中可以直接使用逻辑运算符。
比如,逻辑与的查询,用 &
来连接查询条件。
# 总价大于1000万,且每平米单价小于6万的房屋
df.query('totalPrice > 1000 & unitPrice < 60000').head()
逻辑或的查询,用|
来连接查询条件。
# 总价小于200万,或者每平米单价小于3万的房屋
df.query('totalPrice < 200 | unitPrice < 30000').head()
因为是逻辑或,两个条件满足一个就行,所以查询出的数据有总价大于200万,也有单价大于3万的数据。
还有一个逻辑非的运算,用 not
关键字来表示。
2.3. 模糊查询
除了比较,也可以对字符串进行模糊查询,类似sql
中的LIKE
检索。
比如,查询名称包含万科的楼盘。
# 名称包含万科
df.query('name.str.contains("万科")').head(5)
包含的字符串也支持正则表达式匹配,比如,查询万科楼盘中3室的房屋。
df.query('name.str.contains("万科.*3室")').head(5)
2.4. 匹配列表
查询时,可以匹配某个列表中的一项,类似于SQL
中的IN
检索。
比如,查询任意三个日期的房屋成交信息,且总价大于500万。
dates = ["2023.02.28", "2022.12.11", "2022.04.10"]
df.query('totalPrice > 600 & dealDate == @dates').head(5)
3. 总结
pandas
的DataFrame
提供了各种过滤检索数据的方式,与之相比,query
函数允许用户以字符串的形式对DataFrame
进行查询操作。
这样的好处有:
- 直观易读:类似SQL的语法,且查询语句以字符串形式表示,易于理解和阅读,有助于提高代码的可读性
- 灵活性高:支持复杂的查询条件,可以通过逻辑运算符组合多个条件,也支持模糊的匹配方式
- 减少代码量:可以减少编写过滤和条件判断的代码量,使代码更加简洁
- 易于调试:由于查询语句以字符串形式表示,因此在调试过程中可以轻松地打印和查看查询条件
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战