摘要:
无监督学习 聚类:对数据进行分类 1.K均值算法 先选两个中心 簇分类: 根据离两个点的距离远近,把数据分成两类 移动中心,移动到各类的中心: 不断循环上面的步骤 输入: 1.K-分类的个数。 2.训练集 算法: 如果在循环过程中一个类没有和他最近的点, 1.移除这个类,也就是减少一个类 2.随机产 阅读全文
摘要:
使用SVM优化包(liblinear,libsvm)来求θ 我们要做得: 1.选择适当的C值 2.选择相应的核函数 我们也可以不选择核函数(称为线性核函数) 弊端: 如果你有大量的特征变量 如果 n 很大 而训练集的样本数 m 很小 那么 你知道 你有大量的特征变量 x 是一个 n+1 维向量 x 阅读全文
摘要:
当我们要去判断一个非线性的区域,我们会选择用非线性 函数来拟合。 问题是 能不能选择别的特征变量 或者有没有比这些高阶项更好的特征变量 因为 我们并不知道 这些高阶项是不是我们真正需要的 我们之前谈到 计算机 视觉的时候 提到过这时的输入是一个有很多像素的图像 我们看到如果用高阶项 作为特征变量 运 阅读全文
摘要:
强大的算法 广泛的应用于 工业界和学术界 它被称为支持向量机(Support Vector Machine) 与逻辑回归和神经网络相比 支持向量机 或者简称SVM 在学习复杂的非线性方程时 、 提供了一种更为清晰 更加强大的方式 Logistic回归的替代观点 J(θ)=-(yloghθ(x)+(1 阅读全文
摘要:
癌症分类例子: 训练逻辑回归模型hθ(x).(如果有癌症则为1,没有为0) 我们在测试集中得到1%的错误率,看起来不错 但是 假如我们发现 在测试集中 只有0.5%的患者 真正得了癌症 因此 在我们的筛选程序里 只有0.5%的患者患了癌症 只有0.5%的错误率,显然只考虑误差率不合适 因为你可能会获 阅读全文