Guide to Data Mining 读书笔记 相似度距离算法的取舍
http://guidetodatamining.com/guide/ch2/DataMining-ch2.pdf 第二章第31页
1.如果数据密集(所有数据几乎都有属性值,属性值量级重要),就用欧几里德算法
2.数据受级别膨胀影响(不同的用户使用不同的评分标准),就用皮尔逊相关系数算法
3.数据稀疏性强,就考虑用夹角余弦相似度算法
http://guidetodatamining.com/guide/ch2/DataMining-ch2.pdf 第二章第31页
1.如果数据密集(所有数据几乎都有属性值,属性值量级重要),就用欧几里德算法
2.数据受级别膨胀影响(不同的用户使用不同的评分标准),就用皮尔逊相关系数算法
3.数据稀疏性强,就考虑用夹角余弦相似度算法