摘要: (草稿) Random Forest的随机性表现在哪里。 第一,是选择训练样本的随机性,又放回的 第二,是选择树节点特征的随机性。在n个特征中选择nsub个子特征的最优,但是会增加树对样本的你和程度,但是会提高泛化能力,可采用交叉验证的方法确定合适的nsub。 https://www.cnblogs 阅读全文
posted @ 2018-04-23 23:16 路边的十元钱硬币 阅读(175) 评论(0) 推荐(0) 编辑
摘要: (草稿) PCA主成分分析 取协方差矩阵 取矩阵特征值、特征向量 取最大特征值的特征向量 原始数据左乘特征向量,得到降维结果。 https://blog.csdn.net/sxf1061926959/article/details/53907935 阅读全文
posted @ 2018-04-23 23:14 路边的十元钱硬币 阅读(164) 评论(0) 推荐(0) 编辑
摘要: (草稿) https://www.cnblogs.com/gavanwanggw/p/7073905.html 阅读全文
posted @ 2018-04-23 22:28 路边的十元钱硬币 阅读(156) 评论(0) 推荐(0) 编辑
摘要: (草稿) 过程: 1. 初始化所有节点的 labels 成唯一的值; 2. 对每个节点,将 label 更新为和其相连的所有节点中,标签最多的 节点的label; 2. 初始化情况下,假如所有相连的节点的label没有重复,则随机选取一个。 3. 直到不再更新,停止。 阅读全文
posted @ 2018-04-23 18:14 路边的十元钱硬币 阅读(308) 评论(0) 推荐(0) 编辑
摘要: (草稿) 两点关系的三种定义: 1. 直接密度可达:A在B的邻域内; 2. 密度可达:AB之间存在,直接密度可达的点串; 3. 密度连接:AB之间存在点k,使得Ak和Bk都密度可达; 过程: 1. 对每个点 2. 分别求满足 连接性和最大性的 簇 。 3. 所有点都归类,结束。 参考: https: 阅读全文
posted @ 2018-04-23 16:53 路边的十元钱硬币 阅读(141) 评论(0) 推荐(0) 编辑
摘要: (草稿) k-means: 1. 随机选取n个中心 2. 计算每个点到各个中心的距离 3. 距离小于阈值的归成一类。 4. 计算新类的质心,作为下一次循环的n个中心 5. 直到新类的质心和对应本次循环的n个中心的偏移不大,停止。 k-means++: 1. 随机选取n个中心(越远的被选取的概率越大, 阅读全文
posted @ 2018-04-23 16:05 路边的十元钱硬币 阅读(197) 评论(0) 推荐(0) 编辑
摘要: (草稿) meanshift 也是一种聚类方法。 优点在于:不需要提前指定类型数。 缺点就是计算量大 过程:(最一般的做法,没有使用核函数) 1. 逐点迭代,设置为位置中心 2. 计算所有点到位置中心的距离 3. 计算位置的质心(平均) 4. 位置中心的质心的距离够小就停止,该位置中心点就属于(质心 阅读全文
posted @ 2018-04-23 15:56 路边的十元钱硬币 阅读(188) 评论(0) 推荐(0) 编辑
摘要: repeat:复制元素 axis = 0 复制每行 axis = 1 复制每列 2 表示复制一遍 不设置axis,复制每个,按行展开成一行。 阅读全文
posted @ 2018-04-23 12:00 路边的十元钱硬币 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 求和: axis = 0 按列求和 axis = 1 按行求和 阅读全文
posted @ 2018-04-23 11:51 路边的十元钱硬币 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 转自: https://github.com/zhaozhiyong19890102/Python-Machine-Learning-Algorithm 阅读全文
posted @ 2018-04-23 09:21 路边的十元钱硬币 阅读(223) 评论(0) 推荐(0) 编辑