计算机视觉中的一些知识

20231120

1. Zero-shot

定义:在测试时,遇到训练时未观察到的类的样本,并需要预测它们所属的类。

通常通过某些形式的辅助信息将观察到的未观察到的类相关联来工作,该辅助信息对对象的可观察区别属性进行编码。

2. 体素

MRI 图像通常为三维图像,一个二维图像上的像素对应到三维图像上被称为体素。体素空间由三个体素轴定义,其中(0,0,0)是阵列中第一个体素的中心,轴上的单位是体素。因此,体素坐标被定义在一个叫做体素空间的参考空间中。

3.端到端(end-to-end)

它是一种能够直接从原始数据中提取特征并输出最终结果的模型,不需要显式地进行手动特征提取或分步骤处理。
在传统的机器学习方法中,通常需要将原始数据进行预处理、特征提取和选择,然后再将其输入分类器或回归器等算法进行训练。这些处理过程通常需要大量的领域知识和人工操作,并且往往需要多个步骤才能完成。相比之下,端到端学习使用深度神经网络作为一个整体来处理数据,在单个模型中同时实现特征提取和分类/回归任务。端到端学习的优势在于,它可以在不需要专业知识或手动干预的情况下,从原始数据中自动学习特征,并根据这些特征直接预测结果。这对于处理大量复杂的数据集非常有用,并且通常可以产生更准确和可靠的结果。

4. 对比度

在医学图像处理中,MR图像的对比度取决于所成像区域中的磁性和氢核数。对比度是指图像中亮度差异的程度。在数字图像处理中,对比度是指图像中最亮和最暗区域之间的差异。对比度越高,图像中的亮度差异就越大,图像就越清晰。

5. 超分辨率效果评价

可以参考一些比赛的指标,可以参考ECCV2018 workshop PIRM2018感知超分辨率图像重建挑战赛的几项评价指标。

5.1 MSE和PSNR

MSE均方误差(Mean Squared Error)
PSNR(PeakSignal to Noise Ratio)峰值信噪比,单位是dB,数值越大表示失真越小。

\[\begin{gathered} MSE=\frac{1}{H\times W}\sum_{i=1}^{H}\sum_{j=1}^{W}(X(i,j)-Y(i,j))^{2} \\ PSNR=10\log_{10}(\frac{(2^{n}-1)^{2}}{MSE})_{} \end{gathered}\]

PSNR是最普遍和使用最为广泛的一种图像客观评价指标,然而它是基于对应像素点间的误差,并未考虑到人眼的视觉特性。因为人眼对空间频率较低的对比差异敏感度较高,对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响,因而经常出现评价结果与人的主观感觉不一致的情况。

5.2 SSIM(结构相似)

结构相似性SSIM从亮度、对比度和结构这三个方面来评估两幅图像的相似性,是一种衡量两幅图像相似度的指标。SSIM使用的两张图像中,一张为未经压缩的无失真图像,另一张为失真后的图像。 给定两个图像x和y, 两张图像的结构相似性可按照以下方式求出:

\[\mathrm{SSIM}(x,y)=\frac{(2\mu_{x}\mu_{y}+c_{1})(2\sigma_{xy}+c_{2})}{(\mu_{x}^{2}+\mu_{y}^{2}+c_{1})(\sigma_{x}^{2}+\sigma_{y}^{2}+c_{2})} \]

其中\(\mu_\mathrm{x}\)是x的平均值,\(\mu_\mathrm{y}\)\(y\)的平均值,\(\sigma_\mathrm{x}^2\)是x的方差,\(\sigma_{y}^{L}\)\(y\)的方差,\(\sigma_\mathrm{xy}\)是x和\(y\)的协方差。\(c_1=(k_1L)^2,\:c_2=(k_2L)^2\)是用来维持稳定的常数。L是像素值的动态范围。\(k_{1}=0.01,k_{2}=0.03\)。结构相似性的范围为0 到\(1\)。当两张图像一模一样时,SSIM 的值等于 1。

5.3 其他指标

FID(Frechet Inception Distance)度量生成样本和真实数据集之间的Frechet距离。同样距离越低越好

IS,即Inception Score,用过Inception v3模型度量图片分数,可用来算单张图片的分值,越高越好。

6. SISR

单幅图像超分辨率,生成与输入低分辨率图像一致的高分辨率图像的过程。

7. 参数分布(parametric distributions)

可以用公式来描述的概率分布称为parametric distributions(参数型分布),即这些分布密度的函数具有固定的数学形式,其具体的函数值则取决于这些数学形式使用的参数。比如连续单变量高斯分布:

\[p(x;\mu,\sigma^2)=\frac1{√2\pi\sigma^2}e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

其中,\(x\) 是随机变量,\(\mu\)\(\sigma^2\) 是分布参数,分别代表均值和方差,\(x\) 的概率分布 \(p(x)\) 的值取决于参数\(\mu\)\(\sigma^2\)。不同的参数决定了不同的概率分布,但这些分布的形式是一样的。

8. 愚弄率(Fooling ratio/rate)

愚弄率指的是一个被训练过的模型在图片被干扰之后改变其原本预测的类别的比例。

9. The ill-posed nature (病态问题)

病态问题是指在数学和工程中,解决方案对问题的初始条件或参数的微小变化非常敏感的问题。在超分辨率的上下文中,这意味着对于给定的低分辨率图像,可能存在多个高分辨率图像与之匹配。换句话说,从低分辨率图像恢复出高分辨率图像的过程并不唯一,这使得问题变得复杂且难以解决。
现在一种自然方法是将解决方案视为一种分布。

10. 数据真实性(Data Authenticity)

真实性指的是数据反映的客观情况准确无误的特性。在数据采集、存储和使用过程中,数据真实性要求数据来源可靠,数据内容准确,没有错误或偏差。例如,一个销售记录应该准确地反映实际发生的交易额,一个人口普查数据应该真实反映人口数量和分布。

11. 数据一致性(Data Consistency):

数据一致性是指在不同时间点、不同系统或不同数据源之间,相同数据元素的值保持一致的特性。这包括横向一致性(同一数据源内部不同记录之间的一致性)和纵向一致性(不同数据源之间相同数据的一致性)。例如,一个公司的财务系统中,所有关于客户账户余额的数据应该在不同的数据库或应用程序中保持一致。

12. 正则化先验(Regularization Prior)

正则化是向模型中添加信息或约束的过程,通常是通过对模型的复杂度进行惩罚来实现。它可以帮助模型在训练数据上获得不错的表现,同时也保持对新数据的泛化能力。
“Regularization Prior”通常指的是在模型训练过程中引入的一种先验假设,它偏好更简单或更平滑的模型解决方案。这种先验可以看作是对模型的一种偏见,即在所有可能的模型中,更倾向于选择简单的模型。

例子

  • L1正则化(Lasso):它通过添加一个与模型权重的绝对值成比例的项(L1范数)到损失函数中来工作。这促使模型将某些权重值缩减到零,导致一个更稀疏的模型。
  • L2正则化(Ridge):它添加一个与模型权重平方成比例的项(L2范数)到损失函数。这会使得模型权重不会变得过大,从而限制了模型的复杂度。

参考

posted @ 2023-11-26 16:57  TTS-S  阅读(32)  评论(0编辑  收藏  举报