摘要: 有些数据是没有专门的数据集的,为了找到神经网络训练的数据,自然而然的想到了用爬虫的方法开始采集数据。一开始采用了网上的一个动态爬虫的代码,发现爬取的图片大多是重复的,有效图片很少。 动态爬虫: 为了筛选出重复的图片又采用了哈希算法进行去重 用哈希算法筛选后又发现筛除的太多了,阈值不好控制。又尝试采用 阅读全文
posted @ 2019-07-09 09:46 铃铃漆007 阅读(439) 评论(0) 推荐(0) 编辑