利用python检测色情图片简易实例
1 import sys 2 import os 3 import _io 4 from collections import namedtuple 5 from PIL import Image 6 7 class Nude(object): 8 9 Skin = namedtuple("Skin", "id skin region x y") 10 11 def __init__(self, path_or_image): 12 # 若 path_or_image 为 Image.Image 类型的实例,直接赋值 13 if isinstance(path_or_image, Image.Image): 14 self.image = path_or_image 15 # 若 path_or_image 为 str 类型的实例,打开图片 16 elif isinstance(path_or_image, str): 17 self.image = Image.open(path_or_image) 18 19 # 获得图片所有颜色通道 20 bands = self.image.getbands() 21 # 判断是否为单通道图片(也即灰度图),是则将灰度图转换为 RGB 图 22 if len(bands) == 1: 23 # 新建相同大小的 RGB 图像 24 new_img = Image.new("RGB", self.image.size) 25 # 拷贝灰度图 self.image 到 RGB图 new_img.paste (PIL 自动进行颜色通道转换) 26 new_img.paste(self.image) 27 f = self.image.filename 28 # 替换 self.image 29 self.image = new_img 30 self.image.filename = f 31 32 # 存储对应图像所有像素的全部 Skin 对象 33 self.skin_map = [] 34 # 检测到的皮肤区域,元素的索引即为皮肤区域号,元素都是包含一些 Skin 对象的列表 35 self.detected_regions = [] 36 # 元素都是包含一些 int 对象(区域号)的列表 37 # 这些元素中的区域号代表的区域都是待合并的区域 38 self.merge_regions = [] 39 # 整合后的皮肤区域,元素的索引即为皮肤区域号,元素都是包含一些 Skin 对象的列表 40 self.skin_regions = [] 41 # 最近合并的两个皮肤区域的区域号,初始化为 -1 42 self.last_from, self.last_to = -1, -1 43 # 色情图像判断结果 44 self.result = None 45 # 处理得到的信息 46 self.message = None 47 # 图像宽高 48 self.width, self.height = self.image.size 49 # 图像总像素 50 self.total_pixels = self.width * self.height 51 52 def resize(self, maxwidth=1000, maxheight=1000): 53 """ 54 基于最大宽高按比例重设图片大小, 55 注意:这可能影响检测算法的结果 56 57 如果没有变化返回 0 58 原宽度大于 maxwidth 返回 1 59 原高度大于 maxheight 返回 2 60 原宽高大于 maxwidth, maxheight 返回 3 61 62 maxwidth - 图片最大宽度 63 maxheight - 图片最大高度 64 传递参数时都可以设置为 False 来忽略 65 """ 66 # 存储返回值 67 ret = 0 68 if maxwidth: 69 if self.width > maxwidth: 70 wpercent = (maxwidth / self.width) 71 hsize = int((self.height * wpercent)) 72 fname = self.image.filename 73 # Image.LANCZOS 是重采样滤波器,用于抗锯齿 74 self.image = self.image.resize((maxwidth, hsize), Image.LANCZOS) 75 self.image.filename = fname 76 self.width, self.height = self.image.size 77 self.total_pixels = self.width * self.height 78 ret += 1 79 if maxheight: 80 if self.height > maxheight: 81 hpercent = (maxheight / float(self.height)) 82 wsize = int((float(self.width) * float(hpercent))) 83 fname = self.image.filename 84 self.image = self.image.resize((wsize, maxheight), Image.LANCZOS) 85 self.image.filename = fname 86 self.width, self.height = self.image.size 87 self.total_pixels = self.width * self.height 88 ret += 2 89 return ret 90 91 # 分析函数 92 def parse(self): 93 # 如果已有结果,返回本对象 94 if self.result is not None: 95 return self 96 # 获得图片所有像素数据 97 pixels = self.image.load() 98 # 遍历每个像素 99 for y in range(self.height): 100 for x in range(self.width): 101 # 得到像素的 RGB 三个通道的值 102 # [x, y] 是 [(x,y)] 的简便写法 103 r = pixels[x, y][0] # red 104 g = pixels[x, y][1] # green 105 b = pixels[x, y][2] # blue 106 # 判断当前像素是否为肤色像素 107 isSkin = True if self._classify_skin(r, g, b) else False 108 # 给每个像素分配唯一 id 值(1, 2, 3...height*width) 109 # 注意 x, y 的值从零开始 110 _id = x + y * self.width + 1 111 # 为每个像素创建一个对应的 Skin 对象,并添加到 self.skin_map 中 112 self.skin_map.append(self.Skin(_id, isSkin, None, x, y)) 113 # 若当前像素不为肤色像素,跳过此次循环 114 if not isSkin: 115 continue 116 117 # 设左上角为原点,相邻像素为符号 *,当前像素为符号 ^,那么相互位置关系通常如下图 118 # *** 119 # *^ 120 121 # 存有相邻像素索引的列表,存放顺序为由大到小,顺序改变有影响 122 # 注意 _id 是从 1 开始的,对应的索引则是 _id-1 123 check_indexes = [_id - 2, # 当前像素左方的像素 124 _id - self.width - 2, # 当前像素左上方的像素 125 _id - self.width - 1, # 当前像素的上方的像素 126 _id - self.width] # 当前像素右上方的像素 127 # 用来记录相邻像素中肤色像素所在的区域号,初始化为 -1 128 region = -1 129 # 遍历每一个相邻像素的索引 130 for index in check_indexes: 131 # 尝试索引相邻像素的 Skin 对象,没有则跳出循环 132 try: 133 self.skin_map[index] 134 except IndexError: 135 break 136 # 相邻像素若为肤色像素: 137 if self.skin_map[index].skin: 138 # 若相邻像素与当前像素的 region 均为有效值,且二者不同,且尚未添加相同的合并任务 139 if (self.skin_map[index].region != None and 140 region != None and region != -1 and 141 self.skin_map[index].region != region and 142 self.last_from != region and 143 self.last_to != self.skin_map[index].region) : 144 # 那么这添加这两个区域的合并任务 145 self._add_merge(region, self.skin_map[index].region) 146 # 记录此相邻像素所在的区域号 147 region = self.skin_map[index].region 148 # 遍历完所有相邻像素后,若 region 仍等于 -1,说明所有相邻像素都不是肤色像素 149 if region == -1: 150 # 更改属性为新的区域号,注意元祖是不可变类型,不能直接更改属性 151 _skin = self.skin_map[_id - 1]._replace(region=len(self.detected_regions)) 152 self.skin_map[_id - 1] = _skin 153 # 将此肤色像素所在区域创建为新区域 154 self.detected_regions.append([self.skin_map[_id - 1]]) 155 # region 不等于 -1 的同时不等于 None,说明有区域号为有效值的相邻肤色像素 156 elif region != None: 157 # 将此像素的区域号更改为与相邻像素相同 158 _skin = self.skin_map[_id - 1]._replace(region=region) 159 self.skin_map[_id - 1] = _skin 160 # 向这个区域的像素列表中添加此像素 161 self.detected_regions[region].append(self.skin_map[_id - 1]) 162 # 完成所有区域合并任务,合并整理后的区域存储到 self.skin_regions 163 self._merge(self.detected_regions, self.merge_regions) 164 # 分析皮肤区域,得到判定结果 165 self._analyse_regions() 166 return self 167 168 169 # self.merge_regions 的元素都是包含一些 int 对象(区域号)的列表 170 # self.merge_regions 的元素中的区域号代表的区域都是待合并的区域 171 # 这个方法便是将两个待合并的区域号添加到 self.merge_regions 中 172 def _add_merge(self, _from, _to): 173 # 两个区域号赋值给类属性 174 self.last_from = _from 175 self.last_to = _to 176 177 # 记录 self.merge_regions 的某个索引值,初始化为 -1 178 from_index = -1 179 # 记录 self.merge_regions 的某个索引值,初始化为 -1 180 to_index = -1 181 182 183 # 遍历每个 self.merge_regions 的元素 184 for index, region in enumerate(self.merge_regions): 185 # 遍历元素中的每个区域号 186 for r_index in region: 187 if r_index == _from: 188 from_index = index 189 if r_index == _to: 190 to_index = index 191 192 # 若两个区域号都存在于 self.merge_regions 中 193 if from_index != -1 and to_index != -1: 194 # 如果这两个区域号分别存在于两个列表中 195 # 那么合并这两个列表 196 if from_index != to_index: 197 self.merge_regions[from_index].extend(self.merge_regions[to_index]) 198 del(self.merge_regions[to_index]) 199 return 200 201 # 若两个区域号都不存在于 self.merge_regions 中 202 if from_index == -1 and to_index == -1: 203 # 创建新的区域号列表 204 self.merge_regions.append([_from, _to]) 205 return 206 # 若两个区域号中有一个存在于 self.merge_regions 中 207 if from_index != -1 and to_index == -1: 208 # 将不存在于 self.merge_regions 中的那个区域号 209 # 添加到另一个区域号所在的列表 210 self.merge_regions[from_index].append(_to) 211 return 212 # 若两个待合并的区域号中有一个存在于 self.merge_regions 中 213 if from_index == -1 and to_index != -1: 214 # 将不存在于 self.merge_regions 中的那个区域号 215 # 添加到另一个区域号所在的列表 216 self.merge_regions[to_index].append(_from) 217 return 218 219 # 合并该合并的皮肤区域 220 def _merge(self, detected_regions, merge_regions): 221 # 新建列表 new_detected_regions 222 # 其元素将是包含一些代表像素的 Skin 对象的列表 223 # new_detected_regions 的元素即代表皮肤区域,元素索引为区域号 224 new_detected_regions = [] 225 226 # 将 merge_regions 中的元素中的区域号代表的所有区域合并 227 for index, region in enumerate(merge_regions): 228 try: 229 new_detected_regions[index] 230 except IndexError: 231 new_detected_regions.append([]) 232 for r_index in region: 233 new_detected_regions[index].extend(detected_regions[r_index]) 234 detected_regions[r_index] = [] 235 236 # 添加剩下的其余皮肤区域到 new_detected_regions 237 for region in detected_regions: 238 if len(region) > 0: 239 new_detected_regions.append(region) 240 241 # 清理 new_detected_regions 242 self._clear_regions(new_detected_regions) 243 244 # 皮肤区域清理函数 245 # 只保存像素数大于指定数量的皮肤区域 246 def _clear_regions(self, detected_regions): 247 for region in detected_regions: 248 if len(region) > 30: 249 self.skin_regions.append(region) 250 251 # 分析区域 252 def _analyse_regions(self): 253 # 如果皮肤区域小于 3 个,不是色情 254 if len(self.skin_regions) < 3: 255 self.message = "Less than 3 skin regions ({_skin_regions_size})".format( 256 _skin_regions_size=len(self.skin_regions)) 257 self.result = False 258 return self.result 259 260 # 为皮肤区域排序 261 self.skin_regions = sorted(self.skin_regions, key=lambda s: len(s), 262 reverse=True) 263 264 # 计算皮肤总像素数 265 total_skin = float(sum([len(skin_region) for skin_region in self.skin_regions])) 266 267 # 如果皮肤区域与整个图像的比值小于 15%,那么不是色情图片 268 if total_skin / self.total_pixels * 100 < 15: 269 self.message = "Total skin percentage lower than 15 ({:.2f})".format(total_skin / self.total_pixels * 100) 270 self.result = False 271 return self.result 272 273 # 如果最大皮肤区域小于总皮肤面积的 45%,不是色情图片 274 if len(self.skin_regions[0]) / total_skin * 100 < 45: 275 self.message = "The biggest region contains less than 45 ({:.2f})".format(len(self.skin_regions[0]) / total_skin * 100) 276 self.result = False 277 return self.result 278 279 # 皮肤区域数量超过 60个,不是色情图片 280 if len(self.skin_regions) > 60: 281 self.message = "More than 60 skin regions ({})".format(len(self.skin_regions)) 282 self.result = False 283 return self.result 284 285 # 其它情况为色情图片 286 self.message = "Nude!!" 287 self.result = True 288 return self.result 289 290 # 基于像素的肤色检测技术 291 def _classify_skin(self, r, g, b): 292 # 根据RGB值判定 293 rgb_classifier = r > 95 and \ 294 g > 40 and g < 100 and \ 295 b > 20 and \ 296 max([r, g, b]) - min([r, g, b]) > 15 and \ 297 abs(r - g) > 15 and \ 298 r > g and \ 299 r > b 300 # 根据处理后的 RGB 值判定 301 nr, ng, nb = self._to_normalized(r, g, b) 302 norm_rgb_classifier = nr / ng > 1.185 and \ 303 float(r * b) / ((r + g + b) ** 2) > 0.107 and \ 304 float(r * g) / ((r + g + b) ** 2) > 0.112 305 306 # HSV 颜色模式下的判定 307 h, s, v = self._to_hsv(r, g, b) 308 hsv_classifier = h > 0 and \ 309 h < 35 and \ 310 s > 0.23 and \ 311 s < 0.68 312 313 # YCbCr 颜色模式下的判定 314 y, cb, cr = self._to_ycbcr(r, g, b) 315 ycbcr_classifier = 97.5 <= cb <= 142.5 and 134 <= cr <= 176 316 317 # 效果不是很好,还需改公式 318 # return rgb_classifier or norm_rgb_classifier or hsv_classifier or ycbcr_classifier 319 return ycbcr_classifier 320 321 def _to_normalized(self, r, g, b): 322 if r == 0: 323 r = 0.0001 324 if g == 0: 325 g = 0.0001 326 if b == 0: 327 b = 0.0001 328 _sum = float(r + g + b) 329 return [r / _sum, g / _sum, b / _sum] 330 331 def _to_ycbcr(self, r, g, b): 332 # 公式来源: 333 # http://stackoverflow.com/questions/19459831/rgb-to-ycbcr-conversion-problems 334 y = .299*r + .587*g + .114*b 335 cb = 128 - 0.168736*r - 0.331364*g + 0.5*b 336 cr = 128 + 0.5*r - 0.418688*g - 0.081312*b 337 return y, cb, cr 338 339 def _to_hsv(self, r, g, b): 340 h = 0 341 _sum = float(r + g + b) 342 _max = float(max([r, g, b])) 343 _min = float(min([r, g, b])) 344 diff = float(_max - _min) 345 if _sum == 0: 346 _sum = 0.0001 347 348 if _max == r: 349 if diff == 0: 350 h = sys.maxsize 351 else: 352 h = (g - b) / diff 353 elif _max == g: 354 h = 2 + ((g - r) / diff) 355 else: 356 h = 4 + ((r - g) / diff) 357 358 h *= 60 359 if h < 0: 360 h += 360 361 362 return [h, 1.0 - (3.0 * (_min / _sum)), (1.0 / 3.0) * _max] 363 364 def inspect(self): 365 _image = '{} {} {}×{}'.format(self.image.filename, self.image.format, self.width, self.height) 366 return "{_image}: result={_result} message='{_message}'".format(_image=_image, _result=self.result, _message=self.message) 367 368 # 将在源文件目录生成图片文件,将皮肤区域可视化 369 def showSkinRegions(self): 370 # 未得出结果时方法返回 371 if self.result is None: 372 return 373 # 皮肤像素的 ID 的集合 374 skinIdSet = set() 375 # 将原图做一份拷贝 376 simage = self.image 377 # 加载数据 378 simageData = simage.load() 379 380 # 将皮肤像素的 id 存入 skinIdSet 381 for sr in self.skin_regions: 382 for pixel in sr: 383 skinIdSet.add(pixel.id) 384 # 将图像中的皮肤像素设为白色,其余设为黑色 385 for pixel in self.skin_map: 386 if pixel.id not in skinIdSet: 387 simageData[pixel.x, pixel.y] = 0, 0, 0 388 else: 389 simageData[pixel.x, pixel.y] = 255, 255, 255 390 # 源文件绝对路径 391 filePath = os.path.abspath(self.image.filename) 392 # 源文件所在目录 393 fileDirectory = os.path.dirname(filePath) + '/' 394 # 源文件的完整文件名 395 fileFullName = os.path.basename(filePath) 396 # 分离源文件的完整文件名得到文件名和扩展名 397 fileName, fileExtName = os.path.splitext(fileFullName) 398 # 保存图片 399 simage.save('{}{}_{}{}'.format(fileDirectory, fileName,'Nude' if self.result else 'Normal', fileExtName)) 400 401 if __name__ == "__main__": 402 import argparse 403 404 parser = argparse.ArgumentParser(description='Detect nudity in images.') 405 parser.add_argument('files', metavar='image', nargs='+', 406 help='Images you wish to test') 407 parser.add_argument('-r', '--resize', action='store_true', 408 help='Reduce image size to increase speed of scanning') 409 parser.add_argument('-v', '--visualization', action='store_true', 410 help='Generating areas of skin image') 411 412 args = parser.parse_args() 413 414 for fname in args.files: 415 if os.path.isfile(fname): 416 n = Nude(fname) 417 if args.resize: 418 n.resize(maxheight=800, maxwidth=600) 419 n.parse() 420 if args.visualization: 421 n.showSkinRegions() 422 print(n.result, n.inspect()) 423 else: 424 print(fname, "is not a file")
上面代码文件名为nude.py,则运行下面命令即可开始检测。 $ python3 nude.py -v 0.jpg 1.jpg
运行环境:
安装python及相关$ sudo update-alternatives --install /usr/bin/python3 python3 /usr/bin/python3.4 70 --slave /usr/bin/python3m python3m /usr/bin/python3.4m
$ sudo apt-get install python3-dev python3-setuptools
安装pillow依赖包
$ sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev \libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk
安装pip3(
pip3
是 Python3 的软件包管理系统,使用它来安装 Python3 的模块非常简便)$ sudo apt-get install python3-pip
安装pillow
$ sudo pip3 install Pillow
程序原理:
本程序根据颜色(肤色)找出图片中皮肤的区域,然后通过一些条件判断是否为色情图片
程序的关键步骤如下
- 遍历每个像素,检测像素颜色是否为肤色
- 将相邻的肤色像素归为一个皮肤区域,得到若干个皮肤区域
- 剔除像素数量极少的皮肤区域
我们定义非色情图片的判定规则如下(满足任意一个判定为真):
- 皮肤区域的个数小于 3 个
- 皮肤区域的像素与图像所有像素的比值小于 15%
- 最大皮肤区域小于总皮肤面积的 45%
- 皮肤区域数量超过60个
这些规则你可以尝试更改,直到程序效果让你满意为止
关于像素肤色判定这方面,公式可以在网上找到很多,但世界上不可能有正确率 100% 的公式
你可以用自己找到的公式,在程序完成后慢慢调试