1、特征工程
特征工程是机器学习中最耗时、最繁重的部分。非常重要。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程的目的:将信息使用更加高效的编码方式(特征)表示,信息损失最小,原始数据中包含的规律仍然存在。这种新的编码方式要尽量减少原始数据中的不确定因素(噪声、异常数据、数据缺失等)。
其中特征处理是核心环节。
特征工程是机器学习中最耗时、最繁重的部分。非常重要。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程的目的:将信息使用更加高效的编码方式(特征)表示,信息损失最小,原始数据中包含的规律仍然存在。这种新的编码方式要尽量减少原始数据中的不确定因素(噪声、异常数据、数据缺失等)。
其中特征处理是核心环节。