摘要:
13.1无监督学习:简介 将没有标签的样本分成不同的集合(簇),这种算法叫做聚类。常用的领域有市场分割、社交网络分析、计算机集群管理、了解星系等。 13.2K-均值算法 (1)K-均值是最普及的聚类算法,是一种迭代算法,假设需要将数据聚类成n个组,这时候首先随机选择K个点,称为聚类中心。 将每个样本 阅读全文
摘要:
12.1目标优化 (1)以下是逻辑回归以及单个样本的代价函数 (2)首先将使用上图中紫色的线(称为cost1或者cost0)的代替曲线,然后将样本数m去掉,最后将C代替1/λ(可以这么理解,但不完全是),从而实现逻辑回归的代价函数到SVM的转换。 (3)SVM的输出将不再是逻辑回归的概率,而就是0或 阅读全文
摘要:
11.1首先要做什么 本章将在随后的课程中讲误差分析,然后怎样用一个更加系统性非方法,从一堆不同的方法中,选取合适的那一个。 11.2误差分析 构建一个学习算法的推荐方法为: (1)从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法; (2)绘制学习曲线,决定是增加更多数据, 阅读全文
摘要:
10.1决定下一步该干什么 当系统的效果很差时,你可能考虑到收集更多的样本,也可能: (1)尝试减少特征的数量; (2)尝试获得更多的特征; (3)尝试增加多项式特征; (4)尝试减少正则化程度λ; (5)尝试增加正则化程度λ。 如果做决策将是本章的内容。而不是盲目的选择一种策略。 10.2评估一个 阅读全文