特征工程梗概
作为机器学习重要的一环,特征工程也遵循二八法则。即80%的时间用来处理数据和特征,20%用来进行模型训练和优化(可能nlp和cv领域除外)。特征工程主要包括以下几个方面:
-
特征清洗:处理数据中的对齐、异常值和缺失值,提升数据质量。
-
特征处理:将特征变换成适当的形式,方便机器处理和理解。
-
特征抽取:从现有特征中派生出有价值的额外特征(跟特征处理不同,特征抽取一般要保留原始特征,而特征处理一般不会保留原有特征,这两者界限比较模糊)。
-
特征选择:从大量特征中选取价值最高的特征组,减少模型计算量,一定程度上减少过拟合。
-
特征压缩(降维):将大量稀疏的特征映射到少量稠密的特征空间(实际业务中应用较少,另外经过映射后,特征的解释性变弱,不利于debug)。因此后面的介绍中该节略去。














参考资料:
-
https://segmentfault.com/a/1190000024522693
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律