10 2024 档案

摘要:1、自动驾驶、机器人、电商、监控等行业都涉及到image的sematic segmentation,传统的方式:per-pixel classification,每个像素点都要分类;如果进一步做 instance-level segmentation,可能还要改network architure后重 阅读全文
posted @ 2024-10-30 17:36 第七子007 阅读(975) 评论(0) 推荐(0) 编辑
摘要:截止目前,图片检索领域最出名的应该是openAI的clip了,分别用bert和vit对text和image做encoder,然后让配对的embedding接近,不配对的embedding拉远,通过这种方法达到text匹配(检索)image的目的!但这种方式只能检索,没法生成text啊(比如对imag 阅读全文
posted @ 2024-10-21 17:14 第七子007 阅读(885) 评论(0) 推荐(0) 编辑
摘要:现阶段,主流文生图的思路就是DDPM了:先随机生成N~(0,1)的噪声图,然后逐步denoise,迭代1000次左右得到text指定的图;其中最核心的莫过于denoise时生成的noise图片:每次需要根据输入时间t、文本text和noise latent生成合适的noise图片。之前介绍了unet 阅读全文
posted @ 2024-10-01 20:01 第七子007 阅读(946) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示