使用tf.data.Dataset.from_tensor_slices五步加载数据集
前言:
最近在学习tf2
数据加载感觉蛮方便的
这里记录下使用 tf.data.Dataset.from_tensor_slices
进行加载数据集.
使用tf2做mnist(kaggle)的代码
思路
Step0: 准备要加载的numpy数据
Step1: 使用 tf.data.Dataset.from_tensor_slices()
函数进行加载
Step2: 使用 shuffle()
打乱数据
Step3: 使用 map()
函数进行预处理
Step4: 使用 batch()
函数设置 batch size
值
Step5: 根据需要 使用 repeat()
设置是否循环迭代数据集
代码
import tensorflow as tf
from tensorflow import keras
def load_dataset():
# Step0 准备数据集, 可以是自己动手丰衣足食, 也可以从 tf.keras.datasets 加载需要的数据集(获取到的是numpy数据)
# 这里以 mnist 为例
(x, y), (x_test, y_test) = keras.datasets.mnist.load_data()
# Step1 使用 tf.data.Dataset.from_tensor_slices 进行加载
db_train = tf.data.Dataset.from_tensor_slices((x, y))
db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
# Step2 打乱数据
db_train.shuffle(1000)
db_test.shuffle(1000)
# Step3 预处理 (预处理函数在下面)
db_train.map(preprocess)
db_test.map(preprocess)
# Step4 设置 batch size 一次喂入64个数据
db_train.batch(64)
db_test.batch(64)
# Step5 设置迭代次数(迭代2次) test数据集不需要emmm
db_train.repeat(2)
return db_train, db_test
def preprocess(labels, images):
'''
最简单的预处理函数:
转numpy为Tensor、分类问题需要处理label为one_hot编码、处理训练数据
'''
# 把numpy数据转为Tensor
labels = tf.cast(labels, dtype=tf.int32)
# labels 转为one_hot编码
labels = tf.one_hot(labels, depth=10)
# 顺手归一化
images = tf.cast(images, dtype=tf.float32) / 255
return labels, images
- one_hot 编码: 小姐姐给你解释去 (我在使用自带的fit函数进行训练的时候,发现报错维度不正确,原来是不需要one_hot编码)
- shuffle()函数的数值: 源码链接, 内容我贴图了
我找到一个比较好的解释: 简书真是好东西 - 我发现 自己的数据使用tf.data.Dataset.from_tensor_slices(x, y)加载时, 一定要x在前y在后。。。没仔细看函数说明,否则会导致bug的emmm
- 使用了该函数之后, fit的时候是不支持
validation_split
这个参数提供的功能的~
总结
五个步骤很重要 比较简单的方式加载数据 当然还有其他方法加载 之后再说叭
此外, 建议读读api tf.data.Dataset
里好东西太多了~
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/rainweic/article/details/95737315
本文作者:薄书
本文链接:https://www.cnblogs.com/aimoboshu/p/14567434.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
分类:
tensorflow
, 深度学习
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具