数据集资源索引
del.icio.us 链接推荐系统
MovieLens 电影评价系统 http://www.grouplens.org/73
Zebo 偏好聚类 http://www.Zebo.com/
上千份网页文件 http://kiwitobes.com/wiki
Kayak旅游类垂直搜索引擎 http://www.kayak.com/abs/api/search
一:协同过滤
数据集:用户对电影的评分
算法:几何距离、皮尔逊系数
要点:
1.通过相关性加权给分数加权,得到用户对电影评分的预测
2.协调过滤分为两种,基于用户和基于物品的。后者的相关性可以预先计算好,从而加快过滤速度。对于稀疏的数据集,基于物品的过滤更优,对于密集数据集两者都一样。
二:发现群组(聚类)
数据集:博客、小说、歌词
算法:分级聚类、K均值聚类、Tanimoto系数(计算交集与并集的比率)、多维缩放
要点:分级聚类有两种,列聚类和行聚类,当数据项数量大于变量数量的时候出现无意义聚类的可能会增加。K均值聚类的运行速度远远快于分级聚类,但每次运行的结果都会不同。
三:搜索与排名
数据集:爬虫采集网页
算法:pageRank、神经网络、前馈法、反向传播
备注:没有完全理解,需要继续实验和研究
四:随机优化
数据集:无
算法:随机搜索、爬山法、退火法、遗传算法
要点:没有任何一种算法一定会比随机搜索更优,后面三种算法只会在最优解附近一定是较优解时更具效率。
-*-python之禅-*-
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.