机器学习工程师 - Udacity 癌症检测深度学习 - paulonetwo - 博客园

机器学习工程师 - Udacity 癌症检测深度学习

1.如果你是态度认真的机器学习工程师，你会花很长时间清洗数据。

2.对网络提前训练完全不同的事物，比从来没有训练过的网络可以得到更好的结果。从某种角度讲，神经网络内部形成的特征，与你训练的图片类型无关。

3.敏感性与特异性
敏感性和特异性虽然与查准率和查全率相似，但并不相同。在癌症示例中，敏感性和特异性指：
敏感性：在患有癌症的所有人中，诊断正确的人有多少？
特异性：在未患癌症的所有人中，诊断正确的人有多少？
查准率和查全率的定义如下：
查准率：在被诊断患有癌症的所有人中，多少人确实得了癌症？
查全率：在患有癌症的所有人中，多少人被诊断患有癌症？
从这里可以看出，敏感性就是查全率，但特异性并不是查准率。

4.假设我们有一个能够输出黑色素瘤概率的神经网络。要将它分类为黑色素瘤或者非黑色素瘤，你会选择哪个值作为阈值？

下图是我们的模型对一组病变图像所做的预测直方图，如下所述：

水平轴上的每个点是从 0 到 1 的值
在所有值

在图中，我们将 0.2、0.5 和 0.8 作为阈值。请注意：

在 0.2 下，我们正确分类了每个恶性病变，但也对许多良性病变进行了进一步检查。
在 0.5 下，我们未诊断出一些恶性病变（严重），对少许良性病变进行了进一步检查。
在 0.8 下，我们对大部分良性病变进行了正确分类，但未诊断出许多恶性病变（非常严重）。

在该模型中，可能会有更好的阈值。这个阈值是0.4。

5.ROC曲线

我们将真阳性率作为水平轴，将假阳性率作为垂直轴。

但是，这里，我们使用不同的 ROC 曲线，好像是把这个曲线侧翻了一样，如图所示：

我们把敏感性作为水平轴、特异性作为垂直轴，就得到了这个曲线！

回想一下，水平轴上的值都是可能阈值。对于 0 和 1 之间的任何阈值

对于这个模型，我们对敏感性和特异性进行以下计算：

敏感性：在所有恶性病变中，位于阈值右侧的病变（正确分类）的百分比是多少？
特异性：在所有良性病变中，位于阈值左侧的病变（正确分类）的百分比是多少？

我们将（敏感性，特异性）作为坐标系，绘制出这个点。如果绘制出与 0% 和 100% 之间的每个可能阈值对应的所有点，则会得到上面绘制的 ROC 曲线。因此，也可以将 ROC 曲线称为敏感性-特异性曲线。

假设我们建立了一个神经网络，它能对每个图像随机返回一个 0 至 1 的数字。ROC 曲线会是什么样？

答案是B。

6.发表在《自然》上的相关论文。

posted on 2018-12-04 20:04 paulonetwo 阅读(663) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

公告