在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。
数据开发常用的几种数据预处理和数据整理方法
https://mp.weixin.qq.com/s/Y8GQnj3bHzwq2LHCNMf6Cg
要点
-
在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%。
-
市场上有各种用于数据清洗和特征工程的编程语言、框架和工具。它们之间的功能有重叠,也各有权衡。
-
数据整理是数据预处理的重要扩展。它最适合在可视化分析工具中使用,这能够避免分析流程被打断。
-
可视化分析工具与开源数据科学组件之间,如R、Python、KNIME、RapidMiner互为补充。
-
避免过多地使用组件能够加速数据科学项目。因此,在数据准备步骤中利用流式获取框架或流式分析产品会是一个不错的选择。