大家注意了,深度学习的书有讲到进行猫狗二元识别的。

在kaggle上有一个支持率很高的数据集,无法用于学习。

因为在Cat目录中的第666张图片,大小是0,这导致了加载函数的崩溃。

考虑到这个图片名字很巧合,我有的理由怀疑这是故意的。

同样的Dogs中11702的大小也是0,也有问题。

 

此数据集无法用于《Python深度学习·第2版》望周知。

这三行会崩溃提示Input is empty

make_subset("train", start_index=0, end_index=1000)
make_subset("validation", start_index=1000, end_index=1500)
make_subset("test", start_index=1500, end_index=2500)

当把规模改小时,运行正常。

make_subset("train", start_index=0, end_index=100)
make_subset("validation", start_index=1000, end_index=150)
make_subset("test", start_index=1500, end_index=250)

由此可见数据集有问题。

经过仔细辨别,发现cat中的666.jpg大小为0,此图片有问题。

=========================

在Cat中的140 660 850 936

在Dog中的1308  1866 2384

是有问题的,这几个常规方法能检测出来

=========================

在Dog中的2317和2494也是有问题的

这两个没法搞,只能排除法找到

=========================

这是故意在学习的路上放绊脚石!

群众里面有坏人!

=========================

顺便说下,《Python深度学习·第2版》书中的数据集是 https://www.kaggle.com/c/dogs-vs-cats/