上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 29 下一页
摘要: 💚特征工程:对于某个特定的应用,如何找到最佳的数据表示 用正确的方式表示数据,对监督模型性能的影响比所选择的精确参数还要大~ 💚分类特征(离散特征):数据输入不以连续的方式变化,不同的分类之间也没有顺序,不可以比较和四则运算 💚连续特征:输入是连续的 1、关于要用到的adult数据集 data 阅读全文
posted @ 2022-05-12 23:01 朝南烟 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的两个内容 数据迭代 函数应用 🚗我的博客链接: pandas:数据迭代、函数应用 2、《Python机器学习基础教程》第三章p130-p159 K-means 🚗我的博客链接:聚类--KMeans 阅读全文
posted @ 2022-05-07 13:48 朝南烟 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 1、用真实值评估聚类(ARI) 1.1 ARI(调整rand指数) 🌺有一些指标可用于评估聚类算法相对于真实聚类的结果,其中最重要的是调整rand指数和归一化互信息。 二者都给出了定量的度量,其最佳值为1,0表示不相关的聚类(虽然ARI可以取负值)。 📐下面我们使用ARI来比较k均值,凝聚聚类和 阅读全文
posted @ 2022-05-07 12:25 朝南烟 阅读(720) 评论(0) 推荐(0) 编辑
摘要: 1、数据迭代 1.1 迭代行 (1)df.iterrows() for index, row in df[0:5].iterrows(): #需要两个变量承接数据 print(row) print("\n") for index, row in df[0:5].iterrows(): print(r 阅读全文
posted @ 2022-05-06 19:02 朝南烟 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 1、什么是DBSCN DBSCAN也是一个非常有用的聚类算法。 它的主要优点:它不需要用户先验地设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点。 DBSCAN比凝聚聚类和k均值稍慢,但仍可以扩展到相对较大的数据集。 1.1算法原理 DBSCAN的原理是识别特征空间的“拥挤”区域中 阅读全文
posted @ 2022-05-05 16:39 朝南烟 阅读(299) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 29 下一页
body { color: #000; background-color: #e6e6e6; font-family: "Helvetica Neue",Helvetica,Verdana,Arial,sans-serif; font-size: 12px; min-height: 101%; background: url(https://images.cnblogs.com/cnblogs_com/caolanying/1841633/o_2009041…ly1geq8oc9owbj21hc0u0th5.jpg) fixed; } #home { margin: 0 auto; opacity: 0.8; width: 65%; min-width: 1080px; background-color: #fff; padding: 30px; margin-top: 50px; margin-bottom: 50px; box-shadow: 0 2px 6px rgba(100, 100, 100, 0.3); }