摘要:
💚特征工程:对于某个特定的应用,如何找到最佳的数据表示 用正确的方式表示数据,对监督模型性能的影响比所选择的精确参数还要大~ 💚分类特征(离散特征):数据输入不以连续的方式变化,不同的分类之间也没有顺序,不可以比较和四则运算 💚连续特征:输入是连续的 1、关于要用到的adult数据集 data 阅读全文
摘要:
本周收获 总结一下本周学习内容: 1、学习了《深入浅出Pandas》的第五章:Pandas高级操作的两个内容 数据迭代 函数应用 🚗我的博客链接: pandas:数据迭代、函数应用 2、《Python机器学习基础教程》第三章p130-p159 K-means 🚗我的博客链接:聚类--KMeans 阅读全文
摘要:
1、用真实值评估聚类(ARI) 1.1 ARI(调整rand指数) 🌺有一些指标可用于评估聚类算法相对于真实聚类的结果,其中最重要的是调整rand指数和归一化互信息。 二者都给出了定量的度量,其最佳值为1,0表示不相关的聚类(虽然ARI可以取负值)。 📐下面我们使用ARI来比较k均值,凝聚聚类和 阅读全文
摘要:
1、数据迭代 1.1 迭代行 (1)df.iterrows() for index, row in df[0:5].iterrows(): #需要两个变量承接数据 print(row) print("\n") for index, row in df[0:5].iterrows(): print(r 阅读全文