构建数据集相关(爬虫、去重、划分)

1 爬取图片(crawl_images.py)

github链接:xiufanivan/Building_Dataset_Related_Tasks: 构建数据集相关(爬取百度图片、文件夹内图片去重、数据集划分)

爬取百度图片

原文链接:【Python 爬虫】爬取百度图片

# -*- coding: utf-8 -*-
"""
 Created on 2021/4/19 11:47
 Filename   : spider_image_baidu.py
 Author     : Taosy
 Zhihu      : https://www.zhihu.com/people/1105936347
 Github     : https://github.com/AFei19911012
 Description: Spider - get images from baidu
"""

import requests
import os
import re


def get_images_from_baidu(keyword, page_num, save_dir):
    # UA 伪装:当前爬取信息伪装成浏览器
    # 将 User-Agent 封装到一个字典中
    # 【(网页右键 → 审查元素)或者 F12】 → 【Network】 → 【Ctrl+R】 → 左边选一项,右边在 【Response Hearders】 里查找
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
    # 请求的 url
    url = 'https://image.baidu.com/search/acjson?'
    n = 0
    for pn in range(0, 30 * page_num, 30):
        # 请求参数
        param = {'tn': 'resultjson_com',
                 # 'logid': '7603311155072595725',
                 'ipn': 'rj',
                 'ct': 201326592,
                 'is': '',
                 'fp': 'result',
                 'queryWord': keyword,
                 'cl': 2,
                 'lm': -1,
                 'ie': 'utf-8',
                 'oe': 'utf-8',
                 'adpicid': '',
                 'st': -1,
                 'z': '',
                 'ic': '',
                 'hd': '',
                 'latest': '',
                 'copyright': '',
                 'word': keyword,
                 's': '',
                 'se': '',
                 'tab': '',
                 'width': '',
                 'height': '',
                 'face': 0,
                 'istype': 2,
                 'qc': '',
                 'nc': '1',
                 'fr': '',
                 'expermode': '',
                 'force': '',
                 'cg': '',    # 这个参数没公开,但是不可少
                 'pn': pn,    # 显示:30-60-90
                 'rn': '30',  # 每页显示 30 条
                 'gsm': '1e',
                 '1618827096642': ''
                 }
        request = requests.get(url=url, headers=header, params=param)
        if request.status_code == 200:
            print('Request success.')
        request.encoding = 'utf-8'
        # 正则方式提取图片链接
        html = request.text
        image_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)
        print(image_url_list)
        # # 换一种方式
        # request_dict = request.json()
        # info_list = request_dict['data']
        # # 看它的值最后多了一个,删除掉
        # info_list.pop()
        # image_url_list = []
        # for info in info_list:
        #     image_url_list.append(info['thumbURL'])

        if not os.path.exists(save_dir):
            os.makedirs(save_dir)

        for image_url in image_url_list:
            image_data = requests.get(url=image_url, headers=header).content
            with open(os.path.join(save_dir, f'{n:06d}.jpg'), 'wb') as fp:
                fp.write(image_data)
            n = n + 1


if __name__ == '__main__':
    keyword = '游仆虫'
    save_dir = keyword
    page_num = 2
    get_images_from_baidu(keyword, page_num, save_dir)
    print('Get images finished.')

2 图片去重(Image_deduplication.py)

原文链接:【笔记】YOLO数据集制作的相关代码(图片收集、重复图片去除、数据集划分)

import os
import hashlib


def find_duplicate_images(folder):
    """
    查找指定文件夹中重复的图片
    """
    # 用于存储所有图片的哈希值和路径
    image_hashes = {}
    # 遍历文件夹中的所有文件
    for root, dirs, files in os.walk(folder):
        for file in files:
            # 判断文件是否为图片
            if file.endswith((".png", ".jpg", ".jpeg", ".bmp", ".gif")):
                # 计算文件的哈希值
                file_path = os.path.join(root, file)
                with open(file_path, "rb") as f:
                    file_hash = hashlib.md5(f.read()).hexdigest()
                # 如果哈希值已经存在,说明是重复的图片,将其添加到重复列表中
                if file_hash in image_hashes:
                    image_hashes[file_hash].append(file_path)
                # 否则将哈希值和文件路径添加到哈希表中
                else:
                    image_hashes[file_hash] = [file_path]
    # 返回所有重复图片的列表
    return [image_paths for image_paths in image_hashes.values() if len(image_paths) > 1]


def delete_duplicate_images(folder):
    """
删除指定文件夹中的重复图片
    """
    # 获取所有重复图片的路径列表
    duplicate_images = find_duplicate_images(folder)
    # 遍历所有重复图片的路径列表
    for image_paths in duplicate_images:
        # 将第一个图片作为原始图片,其余的图片作为重复图片
        original_image_path = image_paths[0]
        duplicate_image_paths = image_paths[1:]
        # 删除所有重复图片
        for duplicate_image_path in duplicate_image_paths:
            os.remove(duplicate_image_path)
            print(f"Deleted duplicate image: {duplicate_image_path}")
        print(f"Original image: {original_image_path} has been kept.")


if __name__ == '__main__':
    delete_duplicate_images('板壳虫')  # 参数填要处理的文件夹

3 数据集划分(dataset_partitioning.py)

原文链接:【笔记】YOLO数据集制作的相关代码(图片收集、重复图片去除、数据集划分)

import os
import random
import shutil


def moveimg(fileDir, tarDir):
    pathDir = os.listdir(fileDir)  # 取图片的原始路径
    filenumber = len(pathDir)
    rate = 0.3  # 自定义抽取图片的比例,比方说100张抽10张,那就是0.1
    picknumber = int(filenumber * rate)  # 按照rate比例从文件夹中取一定数量图片
    sample = random.sample(pathDir, picknumber)  # 随机选取picknumber数量的样本图片
    print(sample)
    for name in sample:
        shutil.move(fileDir + name, tarDir + "\\" + name)
    return


def movelabel(file_list, file_label_train, file_label_val):
    for i in file_list:
        if i.endswith('.jpg'):
            filename = file_label_train + "\\" + i[:-4] + '.txt'  # xml文件将’.txt‘改成'.xml'就可以了
            if os.path.exists(filename):
                shutil.move(filename, file_label_val)
                print(i + "处理成功!")


if __name__ == '__main__':
    fileDir = r"C:\Users\86159\Desktop\hat\JPEGImages" + "\\"  # 源图片文件夹路径
    tarDir = r'C:\Users\86159\Desktop\hat\JPEGImages_val'  # 图片移动到新的文件夹路径
    moveimg(fileDir, tarDir)
    file_list = os.listdir(tarDir)
    file_label_train = r"C:\Users\86159\Desktop\hat\Annotations_yolo"  # 源图片标签路径
    file_label_val = r"C:\Users\86159\Desktop\hat\Annotations_val"  # 标签
    # 移动到新的文件路径
    movelabel(file_list, file_label_train, file_label_val)

posted @ 2023-08-08 16:05  修凡  阅读(24)  评论(0编辑  收藏  举报