朝南烟 - 博客园

2022年5月12日

摘要： 💚特征工程：对于某个特定的应用，如何找到最佳的数据表示用正确的方式表示数据，对监督模型性能的影响比所选择的精确参数还要大~ 💚分类特征（离散特征）：数据输入不以连续的方式变化，不同的分类之间也没有顺序，不可以比较和四则运算 💚连续特征：输入是连续的 1、关于要用到的adult数据集 data 阅读全文

posted @ 2022-05-12 23:01 朝南烟阅读(376) 评论(0) 推荐(0) 编辑

2022年5月7日

ML第5周学习小结

摘要：本周收获总结一下本周学习内容： 1、学习了《深入浅出Pandas》的第五章：Pandas高级操作的两个内容数据迭代函数应用 🚗我的博客链接： pandas:数据迭代、函数应用 2、《Python机器学习基础教程》第三章p130-p159 K-means 🚗我的博客链接：聚类--KMeans 阅读全文

posted @ 2022-05-07 13:48 朝南烟阅读(39) 评论(0) 推荐(0) 编辑

聚类算法的对比与评估

摘要： 1、用真实值评估聚类（ARI） 1.1 ARI（调整rand指数） 🌺有一些指标可用于评估聚类算法相对于真实聚类的结果，其中最重要的是调整rand指数和归一化互信息。二者都给出了定量的度量，其最佳值为1，0表示不相关的聚类（虽然ARI可以取负值）。 📐下面我们使用ARI来比较k均值，凝聚聚类和阅读全文

posted @ 2022-05-07 12:25 朝南烟阅读(720) 评论(0) 推荐(0) 编辑

2022年5月6日

pandas:数据迭代、函数应用

摘要： 1、数据迭代 1.1 迭代行 (1)df.iterrows() for index, row in df[0:5].iterrows(): #需要两个变量承接数据 print(row) print("\n") for index, row in df[0:5].iterrows(): print(r 阅读全文

posted @ 2022-05-06 19:02 朝南烟阅读(211) 评论(0) 推荐(0) 编辑

2022年5月5日

聚类--DBSCN

摘要： 1、什么是DBSCN DBSCAN也是一个非常有用的聚类算法。它的主要优点:它不需要用户先验地设置簇的个数，可以划分具有复杂形状的簇，还可以找出不属于任何簇的点。 DBSCAN比凝聚聚类和k均值稍慢，但仍可以扩展到相对较大的数据集。 1.1算法原理 DBSCAN的原理是识别特征空间的“拥挤”区域中阅读全文

posted @ 2022-05-05 16:39 朝南烟阅读(299) 评论(0) 推荐(0) 编辑

cly的园子

公告