python遍历迭代器自动链式处理数据

`pytorch.utils.data`可兼容迭代数据训练处理，在dataloader中使用提高训练效率：`借助迭代器避免内存溢出不足的现象、借助链式处理使得数据读取利用更高效(可类比操作系统的资源调控)`

书接上文，使用迭代器链式处理数据，在`Process`类的`iter`方法中执行挂载的预处理方法，可以嵌套包裹多层处理方法，类似KoaJs洋葱模型，在for循环时，自动执行预处理方法返回处理后的数据

分析下述示例中输入数据依次执行顺序：`travel -> deep -> shuffle -> sort -> batch`，实际由于嵌套循环或设置缓存的存在，数据流式会有变化，具体如后图分析

from torch.utils.data import IterableDataset
# ...

import random

class Process(IterableDataset):
    def __init__(self, data, f):
        self.data = data
        # 绑定处理函数
        self.f = f   
    def __iter__(self):
        # for循环遍历时，返回一个当前环节处理的迭代器对象
        return self.f(iter(self.data)) 

a = ['a0', 'a1', 'a2', 'a3', 'a4', 'a5', 'a6', 'a7', 'a8', 'a9']
b = ['b0', 'b1', 'b2', 'b3', 'b4', 'b5', 'b6', 'b7', 'b8', 'b9']
c = ['c0', 'c1', 'c2', 'c3', 'c4', 'c5', 'c6', 'c7', 'c8', 'c9']
# data = [[j + str(i) for i in range(10)] for j in ['a','b', 'c'] ]
data = [a, b, c]
def travel(d):
    for i in d:
        # print('travel ', i)
        yield i
def deep(d):
    for arr in d:
        for item in arr:
            yield item

def shuffle(d, sf_size=5):
    buf = []
    for i in d:
        buf.append(i)
        if len(buf) >= sf_size:
            random.shuffle(buf)
            for j in buf:
                # print('shuffle', j)
                yield j
            buf = []
    for k in buf:
        yield k

def sort(d):
    buf = []
    for i in d:
        buf.append(i)
        if len(buf) >= 3:
            for i in buf:
                # print('sort', i)
                yield i
            buf = []
    for k in buf:
        yield k

def batch(d):
    buf = []
    for i in d:
        buf.append(i)
        if len(buf) >= 16:
            for i in buf:
                # print('batch', i)
                yield i
            buf = []
# 对训练数据进行的多个预处理步骤
dataset = Process(data, travel)
dataset = Process(dataset , deep)
dataset = Process(dataset , shuffle)
dataset = Process(dataset , sort)
train_dataset = Process(p, batch)

# 可在此处断点测试
for i in p:
    print(i, 'train')

# train_data_loader = DataLoader(train_dataset,num_workers=args.num_workers,prefetch_factor=args.prefetch)
# train(model , train_data_loader）

由上可以构造数据流式方向：`batch(iter(sort(iter(shuffle(iter(deep(iter(travel(iter( d ))))))))))`

根据数据流式抽取部分过程画出时序图如下：

posted @ 2022-01-08 21:04 365/24/60 阅读(238) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 《python-美藏篇》1.可迭代、迭代器与生成器

· pytorch 梳理

· Python中使用yield实现迭代器

· 软件测试|数据处理神器pandas教程（十三）

· 数据处理工具

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· winform 绘制太阳，地球，月球运作规律
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

历史上的今天：
2021-01-08 Object.defineProperty 详解(数据响应式原理)

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

365/24/60

python遍历迭代器自动链式处理数据

`pytorch.utils.data`可兼容迭代数据训练处理，在dataloader中使用提高训练效率：`借助迭代器避免内存溢出不足的现象、借助链式处理使得数据读取利用更高效(可类比操作系统的资源调控)`

书接上文，使用迭代器链式处理数据，在`Process`类的`iter`方法中执行挂载的预处理方法，可以嵌套包裹多层处理方法，类似KoaJs洋葱模型，在for循环时，自动执行预处理方法返回处理后的数据

分析下述示例中输入数据依次执行顺序：`travel -> deep -> shuffle -> sort -> batch`，实际由于嵌套循环或设置缓存的存在，数据流式会有变化，具体如后图分析

由上可以构造数据流式方向：`batch(iter(sort(iter(shuffle(iter(deep(iter(travel(iter( d ))))))))))`

根据数据流式抽取部分过程画出时序图如下：

最新随笔

我的标签

积分与排名

随笔分类

随笔档案

文章分类

文章档案

阅读排行榜

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

365/24/60

python遍历迭代器自动链式处理数据

pytorch.utils.data可兼容迭代数据训练处理，在dataloader中使用提高训练效率：借助迭代器避免内存溢出不足的现象、借助链式处理使得数据读取利用更高效(可类比操作系统的资源调控)

书接上文，使用迭代器链式处理数据，在Process类的__iter__方法中执行挂载的预处理方法，可以嵌套包裹多层处理方法，类似KoaJs洋葱模型，在for循环时，自动执行预处理方法返回处理后的数据

分析下述示例中输入数据依次执行顺序：travel -> deep -> shuffle -> sort -> batch，实际由于嵌套循环或设置缓存的存在，数据流式会有变化，具体如后图分析

由上可以构造数据流式方向 ：batch(iter(sort(iter(shuffle(iter(deep(iter(travel(iter( d ))))))))))

根据数据流式抽取部分过程画出时序图如下：

最新随笔

我的标签

积分与排名

随笔分类

随笔档案

文章分类

文章档案

阅读排行榜

`pytorch.utils.data`可兼容迭代数据训练处理，在dataloader中使用提高训练效率：`借助迭代器避免内存溢出不足的现象、借助链式处理使得数据读取利用更高效(可类比操作系统的资源调控)`

书接上文，使用迭代器链式处理数据，在`Process`类的`iter`方法中执行挂载的预处理方法，可以嵌套包裹多层处理方法，类似KoaJs洋葱模型，在for循环时，自动执行预处理方法返回处理后的数据

分析下述示例中输入数据依次执行顺序：`travel -> deep -> shuffle -> sort -> batch`，实际由于嵌套循环或设置缓存的存在，数据流式会有变化，具体如后图分析

由上可以构造数据流式方向：`batch(iter(sort(iter(shuffle(iter(deep(iter(travel(iter( d ))))))))))`