08 2018 档案
摘要:1. 图论与GraphX 图论是一个数学学科,研究一组实体(称为顶点)之间两两关系(称为边)的特点。通过构建关系图谱,并对关系进行分析,可以实现更好的投放广告,推荐关系等。随着关系图谱越来越强大,计算量也越来越大,于是不断有新的并行图处理框架被开发出来。如谷歌的Pregel、雅虎的 Giraph 和
阅读全文
摘要:1. 决策树和决策森林 决策树算法家族能自然地处理类别型和数值型特征 决策树算法容易并行化 它们对数据中的离群点(outlier)具有鲁棒性(robust),这意味着一些极端或可能错误的数据点根本不会对预测产生影响 2. Covtype数据集 https://archive.ics.uci.edu/
阅读全文
摘要:1. Audioscrobbler数据集 数据下载地址: http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz Audioscrobbler 数据集只记录了播放数据,如“Bob 播放了一首Prince 的歌
阅读全文
摘要:1. 问题描述 记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体。 每个实体有若干个属性,比如姓名、地址、生日。我们需要根据这些属性找到那些代表相同实体的记录。 不幸的是,有些属性值有问题:格式不一致,或有笔误,或信息缺失。如果简单
阅读全文