讲一下数据分析有哪些步骤,在你做项目的过程中哪个步骤需要花费的时间最久?为什么?
数据分析的步骤
1.定义问题,明确需要解决的需求是什么。
2.问题拆分。对于最终需要解决或探索的问题,进行细分,拆分成不同层面的问题。
3.确定指标。根据不同的细分问题,确定需要探索的指标
4.数据收集。收集整理分析项目所需的数据。
5.数据清洗。删除重复数据,异常值,缺失值处理她,特征筛选,数据归一化或标准化处理。
6.数据分析。对相关数据指标进行描述分析,利用可视化进行探索性分析。
7.趋势预测。根据数据建立数据挖掘模型,利用历史数据预测未来数据,并提升预测精度。
8.撰写报告。梳理分析结论行成分析报告。
在数据分析过程中,大多数时间是在做数据清洗的过程。因为在真实数据中,可能包含了大量的缺失值、噪音,也可能因为人工录入错误导致有异常点存在,数据质量的高低影响最终分析的结果,这个过程也是数据分析中非常重要的一步