U²-Net:使用显著性物体检测来生成真实的铅笔肖像画
编译:ronghuaiyang
pytorch复现语义分割U²-Net,附预训练模型
https://github.com/NathanUA/U-2-Net
导读
感觉可以当成边缘检测来用。
铅笔素描肖像生成已出现作为Alberta大学的U²-Net的一个有趣和流行的新应用。自用于显著目标检测的新的深度网络架构开源以来,该项目的GitHub页面在三天内收到了超过2400颗星。
在计算机视觉领域中,从自然场景中检测和分割视觉上最吸引人的目标的过程称为显著目标检测(SOD)。现有的大多数SOD网络都有类似的设计,重点利用骨干网AlexNet、VGG、ResNet、ResNeXt、DenseNet等提取的深度特征。然而,这些骨干网络最初是为图像分类任务而建立的,因此它们提取代表语义意义的特征,而不是对显著目标检测至关重要的局部细节或全局参考信息。这样的网络也往往需要在ImageNet上进行低效的预训练。
U²-Net是一种简单而强大的深度网络架构,采用了新颖的两层嵌套U型结构,旨在解决这些问题。提出的残差块(RSU)具有各种不同大小的感受野的混合,使它能够更好地捕捉不同尺度上的上下文信息。RSU还使用了池化操作来增加整体架构的深度,而不会显著增加计算成本。
在他们的论文中,研究人员介绍了RSU和用它们构建的嵌套U型结构,并描述了网络的监督策略和训练损失。
RSU主要由三个部分组成:输入卷积层、L高度的U-Net-like的对称encoder-decoder结构、通过求和融合局部和多尺度特征的残差连接。
RSU与原始残差块的主要区别在于,RSU用U-Net-like结构代替了普通的单流卷积,用加权层变换的局部特征代替了原始特征。
该团队指出,RSU的计算成本相对较小。他们将此归因于它的U型结构,并且大多数计算操作都应用于下采样的特征映射。
基于RSU,研究人员开发了U²-Net,一种用于显著性目标检测的新型堆叠U形结构。U²-Net包括一个6级编码器,一个5级解码器,一个显著性图融合模块附加到解码器级和最后一个编码器。
总体而言,U²-Net设计构建了一个具有丰富多尺度特性和低计算和内存成本的深度架构。此外,由于U²-Net架构仅建立在RSU块上,不使用任何预先训练的骨干网进行图像分类处理,可以灵活、轻松地适应不同的工作环境,性能损失最小。
为了训练U²-Net,研究人员使用最大、最常用的显著目标检测数据集DUTS-TR,水平翻转其图像,共获得21,106张训练图像。采用DUTOMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S和SOD等6个显著性目标检测基准公共数据集进行评估。
在实验中,所提出的模型在定性和定量上与20种SOTA SOD方法的性能比较。
读者想实验肖像的应用可以通过下载u2net_portrait.pth:https://drive.google.com/file/d/1IG3HdpcRiDoWNookbncQjeaPN28t90yW/view?usp=sharing并运行APDrawingGAN测试集。你也可以准备自己的图像,大小需要接近或超过512 x512,最好是相对清晰的背景。不过,传统的在画布上油画的肖像似乎不太管用。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧