摘要: 特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。 拿到一份新的数据,需要对特征进行一定的处理使其变成我们可用的数据,具体应该怎么做呢?下面是我整理的分析思路。 特征使用方案 拿到数据之前,需要结合业务经验、市场预分析对数据里需要使用的特征进行预筛选,初步确定对因变量可能有影响 阅读全文
posted @ 2024-03-04 15:40 -DP- 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 今世界数据库容易受到噪声、缺失值、不一致数据困扰,低质量数据会导致低质量的挖掘结果。 数据集成 将数据由多个数据源合并成一个一致的数据存储 数据规约可以通过将聚集删除荣誉特征或者聚类来降低数据大规模。 数据质量:数据的准确性、完整性、一致性、时效性、可信性、可解释性 不完整的:缺少属性值或者某些感兴 阅读全文
posted @ 2024-03-04 10:19 -DP- 阅读(123) 评论(0) 推荐(0) 编辑