大家注意了,深度学习的书有讲到进行猫狗二元识别的。
在kaggle上有一个支持率很高的数据集,无法用于学习。
因为在Cat目录中的第666张图片,大小是0,这导致了加载函数的崩溃。
考虑到这个图片名字很巧合,我有的理由怀疑这是故意的。
同样的Dogs中11702的大小也是0,也有问题。
此数据集无法用于《Python深度学习·第2版》望周知。
这三行会崩溃提示Input is empty
make_subset("train", start_index=0, end_index=1000) make_subset("validation", start_index=1000, end_index=1500) make_subset("test", start_index=1500, end_index=2500)
当把规模改小时,运行正常。
make_subset("train", start_index=0, end_index=100) make_subset("validation", start_index=1000, end_index=150) make_subset("test", start_index=1500, end_index=250)
由此可见数据集有问题。
经过仔细辨别,发现cat中的666.jpg大小为0,此图片有问题。
=========================
在Cat中的140 660 850 936
在Dog中的1308 1866 2384
是有问题的,这几个常规方法能检测出来
=========================
在Dog中的2317和2494也是有问题的
这两个没法搞,只能排除法找到
=========================
这是故意在学习的路上放绊脚石!
群众里面有坏人!
=========================
顺便说下,《Python深度学习·第2版》书中的数据集是 https://www.kaggle.com/c/dogs-vs-cats/