Mining 影响数据挖掘结果的 5 方面
第一个:
数据类型、
对象的不同属性会用不同的数据类型来描述,如 年龄-->int; 生日 -->date;数据挖掘时也要对不同的类型有不同的对待。
第二个:
数据质量、
数据质量直接影响挖掘结果的质量、一般必须解决数据中的 噪点,离群点,数据遗漏,重复。
第三个:
数据挖掘的预处理步骤、
数据挖掘前要对数据进行处理,一来使得数据适应挖掘技术,二来提高数据的质量,如把连续值转变成
离散值(把年龄 变成中年,老年,青年,少年)以适应挖掘技术,又如要减少对象属性的数目。
第四个:
根据数据之间的关系分析数据、
数据分析的一种方法就是找出数据之间的关系,而后使用这一关系而不是数据来进行后面分析,如微信附近的人:
当得到用户之间的距离时,附近与否就根据这一距离来算了。