摘要:
源自在线课程的学习:http://www.studyai.com/course/detail/d086826e9be84b818f9c54893633663d 阅读全文
摘要:
聚类(clustering) 用于找出不带标签数据的相似性的算法 K-Means聚类算法简介 与广义线性模型和决策树类似,K-Means参 数的最优解也是以成本函数最小化为目标。K-Means成本函数公式如下: 成本函数是各个类畸变程度(distortions)之和。每个类的畸变程度等于 该类重心与 阅读全文
摘要:
fig.tight_layout() 调整子图间距 legend 图例分开显示 阅读全文
摘要:
from sklearn import datasets digits = datasets.load_digits(n_class=5) X = digits.data y = digits.target from sklearn.manifold import TSNE from sklearn.decomposition import PCA import matplotlib.pypl... 阅读全文
摘要:
问题选择 用熵(entropy)来度量信息的不确定性。 以比特(bits)为计量单位,熵量化了一个变量的不确定性,熵计算公式如下所示: 例如,一个硬币投掷一次事件发生后一般有两种可能:正面或反面。正面朝上的概率是0.5,反面朝 上的概率也是0.5。那么一个硬币投掷一次的结果这个变量的熵: 也就是说, 阅读全文
摘要:
参考资料:Mastering Machine Learning with scikit-learn 注:代码不可直接运行 广义线性回归模型之逻辑回归(logistic regression)—分类任务 分类任务的目标是找一个函数,把观测值匹配到相关的类和标签上。在二元分类(binary classi 阅读全文
摘要:
参考资料:Mastering Machine Learning with scikit-learn 广义线性回归模型之一元线性回归,多元线性回归和多项式回归—回归任务 回归问题的目标是预测出响应变量的连续值 一元线性回归 一元线性回归假设解释变量和响应变量之间存在线性关系 一元线性回归拟合模型的参数 阅读全文