Python 爬虫 大量数据清洗 ---- sql语句优化

1. 问题描述
    在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司,
  并且要求字段 time(时间) 大于7月一号,小于10月31号。
复制代码
2. 问题解决
    
    我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1号,小于10月31号,在这里用索引的效率很低,
  并且要重复的查询出来五十家公司,效率很低,有没有好的解决方案呢???
复制代码
3.解决问题思路
    1.查询五百条数据,我们会发现内存不够用,这时候我们只查询一百万条数据,分五次处理完毕。

    2.因为这一百万条数据在内存中,把这一百万条数据放到list中去,同时把五十家拍卖公司组合成字符串,然后for循环每一条数据,
    比较拍卖公司是否在字符串中,比较日期是否大于7月一号,小于10月31号。这样去处理,避免数据查询的速度慢。提高数据处理效率。
4.感想: 好的解决问题的思路胜过好的解决问题的人
复制代码

 


复制代码

 

posted @   淋哥  阅读(1201)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术
历史上的今天:
2016-12-19 Mysql 日期时间类型详解
2016-12-19 Mysql 数据库数值类型详解
2016-12-19 删除mysql数据库表里的记录
2016-12-19 mysql 插入 详解
2016-12-19 Mysql 修改数据库,mysql修改表类型,Mysql增加表字段,Mysql删除表字段,Mysql修改字段名,Mysql修改字段排列顺序,Mysql修改表名
2016-12-19 Mysql 创建表和删除表
2016-12-19 实现存储过程详解
点击右上角即可分享
微信分享提示