摘要:
传统的机器学习,用的分类器或回归模型,诸如logistics regression/softmax、svm、naive bayes、decision tree、random forest、GBDT、xgboost等,最核心的要点就是要人工构造特征了。好的特征能让准确率、覆盖率等指标提升十几个~几十个 阅读全文
摘要:
transformer的核心attention机制效果出奇地好,诞生了chatGPT这种里程碑式milestone的产品,但是attention机制本身的缺点也很明显:time & space complexity 高达 O(N^2); transformer架构2017年发的论文,至今已7年了,时 阅读全文
摘要:
attention机制的效果非凡,但本身也是有缺陷的:Q*K矩阵的复杂度高达O(n^2);如果用在CV领域,还涉及到如下问题: 局部性、全局性 稀疏性 多尺度问题 为了更好地把attention机制应用于CV,上述的几个问题是需要解决的! 1、DilateFormer: Multi-Scale Di 阅读全文
摘要:
多年前做传统的机器学习,主要用的是LR、SVM、bayes、浅层nerual network、decision tree、random forest、GBDT等,这些分类或回归模型要想AUC、ROC等指标高,最核心的就是构造特征了!为此还专门诞生了一个细分领域:feather enginering, 阅读全文
摘要:
meta在2023.4.5又发了image sematic segmentation的文章,名字就叫Segment Anything;学术圈有个潜规则:title越简单,事情越大,比如7年前的那篇 attention is all you need,直接提升了nlp的层次!这次的Segment An 阅读全文
摘要:
1、自动驾驶、机器人、电商、监控等行业都涉及到image的sematic segmentation,传统的方式:per-pixel classification,每个像素点都要分类;如果进一步做 instance-level segmentation,可能还要改network architure后重 阅读全文
摘要:
截止目前,图片检索领域最出名的应该是openAI的clip了,分别用bert和vit对text和image做encoder,然后让配对的embedding接近,不配对的embedding拉远,通过这种方法达到text匹配(检索)image的目的!但这种方式只能检索,没法生成text啊(比如对imag 阅读全文
摘要:
现阶段,主流文生图的思路就是DDPM了:先随机生成N~(0,1)的噪声图,然后逐步denoise,迭代1000次左右得到text指定的图;其中最核心的莫过于denoise时生成的noise图片:每次需要根据输入时间t、文本text和noise latent生成合适的noise图片。之前介绍了unet 阅读全文
摘要:
1、(1)上文介绍了DDPM生成图片的原理和代码测试结果,训练时给样本图片加上gaussian noise,预测时也是预测gaussian noise; 这里为啥要用gaussian distribution?为啥不用其他的分布? 高斯分布相对比较简单,只有两个参数:均值和方差,容易控制; 为啥一张 阅读全文
摘要:
根据文本生成图片是AI的核心应用之一,2020年后主流的生成方式都是基于Denoising Diffusion Probabilistic Models原理的,逐渐替代了之前使用GAN的方式生成图片!那么DDPM为啥能取代GAN了?其优势在哪?或者说GAN的劣势在哪? 1、CLIP模型都知道吧? t 阅读全文