该文被密码保护。 阅读全文
摘要:
K-means的mapreduce实现 输入:k, data[n]; (1) 选择k个初始中心点,例如c[0]=data[0],…c[k-1]=data[k-1];(2) 对于data[0]….data[n], 分别与c[0]…c[n-1]比较,假定与c[i]差值最少,就标记为i类;(3) 对于所有标记为i点,重新计算c[i]={ 所有标记为i类的data[j]之和}/标记为i类的个数;(4) 重复(2)(3),直到所有c[i]值的变化小于给定阈值。 在一次迭代,第二步是最耗时,比如一亿个样本要聚成一万类,需要一万亿次基本操作。而这一步也是容易进行并行处理的。data[0]与c[0]…c[.. 阅读全文
摘要:
如果说过去的十年是搜索技术大行其道的十年,那么个性化推荐技术将成为未来十年中最重要的革新之一。目前几乎所有大型的电子商务系统,如Amazon、CDNOW、Netflix等,都不同程度地使用了各种形式的推荐系统。而近来以“发现”为核心的网站正开始在互联网上崭露头角,比如侧重于音乐推荐的八宝盒,侧重于图书推荐的豆瓣等等。那么,一个好的推荐系统需要满足什么目标呢? 个性化推荐系统必须能够基于用户之前的口味和喜好提供相关的精确的推荐,而且这种口味和喜欢的收集必须尽量少的需要用户的劳动。推荐的结果必须能够实时计算,这样才能够在用户离开网站前之前获得推荐的内容,并且及时的对推荐结果作出反馈。实时性也是推荐 阅读全文