会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
铃铃漆007
博客园
首页
新随笔
联系
订阅
管理
2019年7月9日
Python爬虫小结
摘要: 有些数据是没有专门的数据集的,为了找到神经网络训练的数据,自然而然的想到了用爬虫的方法开始采集数据。一开始采用了网上的一个动态爬虫的代码,发现爬取的图片大多是重复的,有效图片很少。 动态爬虫: 为了筛选出重复的图片又采用了哈希算法进行去重 用哈希算法筛选后又发现筛除的太多了,阈值不好控制。又尝试采用
阅读全文
posted @ 2019-07-09 09:46 铃铃漆007
阅读(439)
评论(0)
推荐(0)
编辑
公告