2018年5月13日
摘要: 在统计学,用样本去估计总体,里面有个名称叫置信区间,95%的置信区间很多人错误理解我,我扔一百次硬币,有95次会落到区间内.95%的概率指的不是我扔硬币的结果,而是置信区间. 最一百次实验,有95%的置信区间包含了真值(真值只有一个),所以只做一次置信区间时,我们也认为这个区间是包含真值的是可信的. 阅读全文
posted @ 2018-05-13 15:56 FantasyBoy 阅读(10833) 评论(0) 推荐(0) 编辑
摘要: 在数据分析挖掘过程中常用的聚类算法有1.K-Means聚类,2.K-中心点,3.系统聚类. 1.K-均值聚类在最小误差基础上将数据划分为预定的类数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢 2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近 阅读全文
posted @ 2018-05-13 15:37 FantasyBoy 阅读(3680) 评论(0) 推荐(0) 编辑