构建数据集相关(爬虫、去重、划分)
1 爬取图片(crawl_images.py)
github链接:xiufanivan/Building_Dataset_Related_Tasks: 构建数据集相关(爬取百度图片、文件夹内图片去重、数据集划分)
爬取百度图片
原文链接:【Python 爬虫】爬取百度图片
# -*- coding: utf-8 -*-
"""
Created on 2021/4/19 11:47
Filename : spider_image_baidu.py
Author : Taosy
Zhihu : https://www.zhihu.com/people/1105936347
Github : https://github.com/AFei19911012
Description: Spider - get images from baidu
"""
import requests
import os
import re
def get_images_from_baidu(keyword, page_num, save_dir):
# UA 伪装:当前爬取信息伪装成浏览器
# 将 User-Agent 封装到一个字典中
# 【(网页右键 → 审查元素)或者 F12】 → 【Network】 → 【Ctrl+R】 → 左边选一项,右边在 【Response Hearders】 里查找
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
# 请求的 url
url = 'https://image.baidu.com/search/acjson?'
n = 0
for pn in range(0, 30 * page_num, 30):
# 请求参数
param = {'tn': 'resultjson_com',
# 'logid': '7603311155072595725',
'ipn': 'rj',
'ct': 201326592,
'is': '',
'fp': 'result',
'queryWord': keyword,
'cl': 2,
'lm': -1,
'ie': 'utf-8',
'oe': 'utf-8',
'adpicid': '',
'st': -1,
'z': '',
'ic': '',
'hd': '',
'latest': '',
'copyright': '',
'word': keyword,
's': '',
'se': '',
'tab': '',
'width': '',
'height': '',
'face': 0,
'istype': 2,
'qc': '',
'nc': '1',
'fr': '',
'expermode': '',
'force': '',
'cg': '', # 这个参数没公开,但是不可少
'pn': pn, # 显示:30-60-90
'rn': '30', # 每页显示 30 条
'gsm': '1e',
'1618827096642': ''
}
request = requests.get(url=url, headers=header, params=param)
if request.status_code == 200:
print('Request success.')
request.encoding = 'utf-8'
# 正则方式提取图片链接
html = request.text
image_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)
print(image_url_list)
# # 换一种方式
# request_dict = request.json()
# info_list = request_dict['data']
# # 看它的值最后多了一个,删除掉
# info_list.pop()
# image_url_list = []
# for info in info_list:
# image_url_list.append(info['thumbURL'])
if not os.path.exists(save_dir):
os.makedirs(save_dir)
for image_url in image_url_list:
image_data = requests.get(url=image_url, headers=header).content
with open(os.path.join(save_dir, f'{n:06d}.jpg'), 'wb') as fp:
fp.write(image_data)
n = n + 1
if __name__ == '__main__':
keyword = '游仆虫'
save_dir = keyword
page_num = 2
get_images_from_baidu(keyword, page_num, save_dir)
print('Get images finished.')
2 图片去重(Image_deduplication.py)
原文链接:【笔记】YOLO数据集制作的相关代码(图片收集、重复图片去除、数据集划分)
import os
import hashlib
def find_duplicate_images(folder):
"""
查找指定文件夹中重复的图片
"""
# 用于存储所有图片的哈希值和路径
image_hashes = {}
# 遍历文件夹中的所有文件
for root, dirs, files in os.walk(folder):
for file in files:
# 判断文件是否为图片
if file.endswith((".png", ".jpg", ".jpeg", ".bmp", ".gif")):
# 计算文件的哈希值
file_path = os.path.join(root, file)
with open(file_path, "rb") as f:
file_hash = hashlib.md5(f.read()).hexdigest()
# 如果哈希值已经存在,说明是重复的图片,将其添加到重复列表中
if file_hash in image_hashes:
image_hashes[file_hash].append(file_path)
# 否则将哈希值和文件路径添加到哈希表中
else:
image_hashes[file_hash] = [file_path]
# 返回所有重复图片的列表
return [image_paths for image_paths in image_hashes.values() if len(image_paths) > 1]
def delete_duplicate_images(folder):
"""
删除指定文件夹中的重复图片
"""
# 获取所有重复图片的路径列表
duplicate_images = find_duplicate_images(folder)
# 遍历所有重复图片的路径列表
for image_paths in duplicate_images:
# 将第一个图片作为原始图片,其余的图片作为重复图片
original_image_path = image_paths[0]
duplicate_image_paths = image_paths[1:]
# 删除所有重复图片
for duplicate_image_path in duplicate_image_paths:
os.remove(duplicate_image_path)
print(f"Deleted duplicate image: {duplicate_image_path}")
print(f"Original image: {original_image_path} has been kept.")
if __name__ == '__main__':
delete_duplicate_images('板壳虫') # 参数填要处理的文件夹
3 数据集划分(dataset_partitioning.py)
原文链接:【笔记】YOLO数据集制作的相关代码(图片收集、重复图片去除、数据集划分)
import os
import random
import shutil
def moveimg(fileDir, tarDir):
pathDir = os.listdir(fileDir) # 取图片的原始路径
filenumber = len(pathDir)
rate = 0.3 # 自定义抽取图片的比例,比方说100张抽10张,那就是0.1
picknumber = int(filenumber * rate) # 按照rate比例从文件夹中取一定数量图片
sample = random.sample(pathDir, picknumber) # 随机选取picknumber数量的样本图片
print(sample)
for name in sample:
shutil.move(fileDir + name, tarDir + "\\" + name)
return
def movelabel(file_list, file_label_train, file_label_val):
for i in file_list:
if i.endswith('.jpg'):
filename = file_label_train + "\\" + i[:-4] + '.txt' # xml文件将’.txt‘改成'.xml'就可以了
if os.path.exists(filename):
shutil.move(filename, file_label_val)
print(i + "处理成功!")
if __name__ == '__main__':
fileDir = r"C:\Users\86159\Desktop\hat\JPEGImages" + "\\" # 源图片文件夹路径
tarDir = r'C:\Users\86159\Desktop\hat\JPEGImages_val' # 图片移动到新的文件夹路径
moveimg(fileDir, tarDir)
file_list = os.listdir(tarDir)
file_label_train = r"C:\Users\86159\Desktop\hat\Annotations_yolo" # 源图片标签路径
file_label_val = r"C:\Users\86159\Desktop\hat\Annotations_val" # 标签
# 移动到新的文件路径
movelabel(file_list, file_label_train, file_label_val)