python实现读取数据库的断点续传
一般我们用python读取数据库的时候都是使用pymysql包,正常流程是根据连接四要素创建connection,通过connection建立curosr,
然后cusror.execute(sql),cursor.fetchall()获取结果数据。
但是当数据量非常大的时候,网络会是非常不稳定的因素,获取数据的时候可能会遇到网络中断,这个时候如果从头开始读数据就会前功尽弃。
如何能够在上一次执行的基础上,做到断点续传呢。
其实用到了cursor中的一个属性叫做cursor.rownumber,它相当于cursor的指针,指向已经还未读取的下一条数据,如果我们在网络中断的时候将这个指针存下来,
等到下一次读的时候就可以从这个rownumber开始读起,这样就实现了断点续传
class MysqlUtil(object): # 从高可用host中取出一个用于连接hive def __init__(self, conn_id, row_num: int = 0): self.conn_id = conn_id self.row_num = row_num @contextmanager def get_conn(self): hook = MySqlHook.get_hook(conn_id=self.conn_id) cur = hook.get_cursor() try: yield cur finally: cur.close() # for循环从cursor中取数据,不会考虑rownumber的问题,所以操作游标取数只能用fetchall def get_result(self, sql): with self.get_conn() as cur: cur.execute(sql) cur.rownumber = self.row_num return cur.fetchall()