Spark Mllib里相似度度量(基于余弦相似度计算不同用户之间相似性)(图文详解)
不多说,直接上干货!
常见的推荐算法
1、基于关系规则的推荐
2、基于内容的推荐
3、人口统计式的推荐
4、协调过滤式的推荐
协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐算法中最常用和最经典的算法。
协调过滤算法主要有两种:
用户对物品: 考查具有相同爱好的用户对相同物品的评分标准进行计算;
物品对用户: 考查具有相同物质的物品从而推荐给选择了某件物品的用户。
相似度度量(基于欧几里得距离的相似度计算和基于余弦角度的相似度计算)
(1)、基于欧几里得距离的相似度计算
欧几里得,是三维空间中两个点的真实距离。
欧几里得相似度计算是一种基于用户之间直线距离的计算方式。在相似度计算中,不同的物品或者用户可以将其定义为不同的坐标点,而特定目标定位为坐标原点。
在实际应用中,常常使用欧几里得距离的倒数作为相似度,即 1/ (d+1) 作为近似值。
(2)、基于余弦角度的相似度计算
不同的物品或者用户作为不同的坐标点,但不能为坐标原点。
其实,还有其他的算法,也可以来相似度度量。
基于欧几里得距离的相似度计算和基于余弦角度的相似度计算的区别
欧几里得相似度是以目标绝对距离作为衡量的标准,余弦相似度以目标差异的大小作为衡量标准。
欧几里得相似度注重目标之间的差异,与目标在空间中的位置直接相关。余弦相似度是不同目标在空间中的夹角,更加表现在前进趋势上的差异。
欧几里得相似度和余弦相似度具有不同的计算方法和描述特征,一般来说,欧几里得相似度用来表现不同目标的绝对差异性,分析目标之间的相似度与差异情况。而余弦相似度更多的是对目标从方向趋势上区分,对特定坐标数字不敏感。
基于余弦相似度计算不同用户之间相似性
步骤是:
(1)输入数据
(2)建立相似度算法公式
(3)计算不同用户之间的相似度
CollaborativeFilteringSpark.scala
package zhouls.bigdata.chapter5 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.Map object CollaborativeFilteringSpark { val conf = new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark ") //设置环境变量 val sc = new SparkContext(conf) //实例化环境 val users = sc.parallelize(Array("aaa","bbb","ccc","ddd","eee")) //设置用户 val films = sc.parallelize(Array("smzdm","ylxb","znh","nhsc","fcwr")) //设置电影名 val source = Map[String,Map[String,Int]]() //使用一个source嵌套map作为姓名电影名和分值的存储 val filmSource = Map[String,Int]() //设置一个用以存放电影分的map def getSource(): Map[String,Map[String,Int]] = { //设置电影评分 val user1FilmSource = Map("smzdm" -> 2,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 0,"fcwr" -> 1) val user2FilmSource = Map("smzdm" -> 1,"ylxb" -> 2,"znh" -> 2,"nhsc" -> 1,"fcwr" -> 4) val user3FilmSource = Map("smzdm" -> 2,"ylxb" -> 1,"znh" -> 0,"nhsc" -> 1,"fcwr" -> 4) val user4FilmSource = Map("smzdm" -> 3,"ylxb" -> 2,"znh" -> 0,"nhsc" -> 5,"fcwr" -> 3) val user5FilmSource = Map("smzdm" -> 5,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 1,"fcwr" -> 2) source += ("aaa" -> user1FilmSource) //对人名进行存储 source += ("bbb" -> user2FilmSource) //对人名进行存储 source += ("ccc" -> user3FilmSource) //对人名进行存储 source += ("ddd" -> user4FilmSource) //对人名进行存储 source += ("eee" -> user5FilmSource) //对人名进行存储 source //返回嵌套map } //两两计算分值,采用余弦相似性 def getCollaborateSource(user1:String,user2:String):Double = { val user1FilmSource = source.get(user1).get.values.toVector //获得第1个用户的评分 val user2FilmSource = source.get(user2).get.values.toVector //获得第2个用户的评分 val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble //对公式分子部分进行计算 val temp1 = math.sqrt(user1FilmSource.map(num => { //求出分母第1个变量值 math.pow(num,2) //数学计算 }).reduce(_ + _)) //进行叠加 val temp2 = math.sqrt(user2FilmSource.map(num => { ////求出分母第2个变量值 math.pow(num,2) //数学计算 }).reduce(_ + _)) //进行叠加 val denominator = temp1 * temp2 //求出分母 member / denominator //进行计算 } def main(args: Array[String]) { getSource() //初始化分数 val name = "bbb" //设定目标对象 users.foreach(user =>{ //迭代进行计算 println(name + " 相对于 " + user +"的相似性分数是:"+ getCollaborateSource(name,user)) }) } }
bbb 相对于 aaa的相似性分数是:0.7089175569585667 bbb 相对于 bbb的相似性分数是:1.0000000000000002 bbb 相对于 ccc的相似性分数是:0.8780541105074453 bbb 相对于 ddd的相似性分数是:0.6865554812287477 bbb 相对于 eee的相似性分数是:0.6821910402406466
当然,这里大家也可以进一步修改程序。
CollaborativeFilteringSpark.scala
package zhouls.bigdata.chapter5 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.Map object CollaborativeFilteringSpark { val conf = new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark ") //设置环境变量 val sc = new SparkContext(conf) //实例化环境 val users = sc.parallelize(Array("aaa","bbb","ccc","ddd","eee")) //设置用户 val films = sc.parallelize(Array("smzdm","ylxb","znh","nhsc","fcwr")) //设置电影名 val source = Map[String,Map[String,Int]]() //使用一个source嵌套map作为姓名电影名和分值的存储 val filmSource = Map[String,Int]() //设置一个用以存放电影分的map def getSource(): Map[String,Map[String,Int]] = { //设置电影评分 val user1FilmSource = Map("smzdm" -> 2,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 0,"fcwr" -> 1) val user2FilmSource = Map("smzdm" -> 1,"ylxb" -> 2,"znh" -> 2,"nhsc" -> 1,"fcwr" -> 4) val user3FilmSource = Map("smzdm" -> 2,"ylxb" -> 1,"znh" -> 0,"nhsc" -> 1,"fcwr" -> 4) val user4FilmSource = Map("smzdm" -> 3,"ylxb" -> 2,"znh" -> 0,"nhsc" -> 5,"fcwr" -> 3) val user5FilmSource = Map("smzdm" -> 5,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 1,"fcwr" -> 2) source += ("aaa" -> user1FilmSource) //对人名进行存储 source += ("bbb" -> user2FilmSource) //对人名进行存储 source += ("ccc" -> user3FilmSource) //对人名进行存储 source += ("ddd" -> user4FilmSource) //对人名进行存储 source += ("eee" -> user5FilmSource) //对人名进行存储 source //返回嵌套map } //两两计算分值,采用余弦相似性 def getCollaborateSource(user1:String,user2:String):Double = { val user1FilmSource = source.get(user1).get.values.toVector //获得第1个用户的评分 val user2FilmSource = source.get(user2).get.values.toVector //获得第2个用户的评分 val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble //对公式分子部分进行计算 val temp1 = math.sqrt(user1FilmSource.map(num => { //求出分母第1个变量值 math.pow(num,2) //数学计算 }).reduce(_ + _)) //进行叠加 val temp2 = math.sqrt(user2FilmSource.map(num => { ////求出分母第2个变量值 math.pow(num,2) //数学计算 }).reduce(_ + _)) //进行叠加 val denominator = temp1 * temp2 //求出分母 member / denominator //进行计算 } def main(args: Array[String]) { getSource() //初始化分数 var name = "bbb" //设定目标对象 users.foreach(user =>{ //迭代进行计算 println(name + " 相对于 " + user +"的相似性分数是:"+ getCollaborateSource(name,user)) }) println() name = "aaa" users.foreach(user => { //迭代进行计算 println(name + " 相对于 " + user + "的相似性分数是:" + getCollaborateSource(name, user)) }) } }
或者,也可以写下程序,如下
UserSimilar.scala
package zhouls.bigdata import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkContext, SparkConf} import scala.collection.mutable.Map object UserSimilar { //屏蔽不必要的日志显示在终端上 Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.apache.eclipse.jetty.server").setLevel(Level.OFF) //程序入口 val conf = new SparkConf().setMaster("local[1]").setAppName(this.getClass().getSimpleName().filter(!_.equals('$'))) println(this.getClass().getSimpleName().filter(!_.equals('$'))) val sc = new SparkContext(conf) //设置用户名 val users = sc.parallelize(Array("张三", "李四", "王五", "赵六", "阿七")) //设置电影名 val films = sc.parallelize(Array("逆战", "人间", "鬼屋", "西游记", "雪豹")) //使用一个source嵌套map作为姓名电影名和分值的存储 val source = Map[String, Map[String, Int]]() //设置一个用以存放电影分的map val filmSource = Map[String, Int]() def getSource(): Map[String, Map[String, Int]] = { //设置电影评分 val user1FilmSource = Map("逆战" -> 2, "人间" -> 3, "鬼屋" -> 1, "西游记" -> 0, "雪豹" -> 1) val user2FilmSource = Map("逆战" -> 1, "人间" -> 2, "鬼屋" -> 2, "西游记" -> 1, "雪豹" -> 4) val user3FilmSource = Map("逆战" -> 2, "人间" -> 1, "鬼屋" -> 0, "西游记" -> 1, "雪豹" -> 4) val user4FilmSource = Map("逆战" -> 3, "人间" -> 2, "鬼屋" -> 0, "西游记" -> 5, "雪豹" -> 3) val user5FilmSource = Map("逆战" -> 5, "人间" -> 3, "鬼屋" -> 1, "西游记" -> 1, "雪豹" -> 2) //对人名进行储存 source += ("张三" -> user1FilmSource) source += ("李四" -> user2FilmSource) source += ("王五" -> user3FilmSource) source += ("赵六" -> user4FilmSource) source += ("阿七" -> user5FilmSource) //返回嵌套map source } //两两计算分值,采用余弦相似性 def getCollaborateSource(user1: String, user2: String): Double = { //获得1,2两个用户的评分 val user1FilmSource = source.get(user1).get.values.toVector val user2FilmSource = source.get(user2).get.values.toVector //对公式部分分子进行计算 val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble //求出分母第一个变量值 val temp1 = math.sqrt(user1FilmSource.map(num => {math.pow(num, 2)}).reduce(_ + _)) //求出分母第二个变量值 val temp2 = math.sqrt(user2FilmSource.map(num => {math.pow(num, 2)}).reduce(_ + _)) //求出分母 val denominator = temp1 * temp2 //进行计算 member / denominator } def main(args: Array[String]) { //初始化分数 getSource() val name1 = "张三" val name2 = "李四" val name3 = "王五" val name4 = "赵六" val name5 = "阿七" users.foreach(user => { println(name1 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name1, user) ) }) println("--------------------------------------------------------------------------") users.foreach(user => { println(name2 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name2, user) ) }) println("--------------------------------------------------------------------------") users.foreach(user => { println(name3 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name3, user) ) }) println("--------------------------------------------------------------------------") users.foreach(user => { println(name4 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name4, user) ) }) println("--------------------------------------------------------------------------") users.foreach(user => { println(name5 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name5, user) ) }) } }
结果是
"C:\Program Files\Java\jdk1.8.0_77\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=D:\Program Files (x86)\JetBrains\IntelliJ IDEA 15.0.5\bin" -Dfile.encoding=UTF-8 -classpath "C:\Program Files\Java\jdk1.8.0_77\jre\lib\charsets.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\deploy.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\access-bridge-64.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\cldrdata.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\dnsns.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\jaccess.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\jfxrt.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\localedata.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\nashorn.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunec.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunjce_provider.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunmscapi.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunpkcs11.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\zipfs.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\javaws.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jce.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jfr.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jfxswt.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jsse.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\management-agent.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\plugin.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\resources.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\rt.jar;G:\location\spark-mllib\out\production\spark-mllib;C:\Program Files (x86)\scala\lib\scala-actors-migration.jar;C:\Program Files (x86)\scala\lib\scala-actors.jar;C:\Program Files (x86)\scala\lib\scala-library.jar;C:\Program Files (x86)\scala\lib\scala-reflect.jar;C:\Program Files (x86)\scala\lib\scala-swing.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-api-jdo-3.2.6.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-core-3.2.10.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-rdbms-3.2.9.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-1.6.1-yarn-shuffle.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-assembly-1.6.1-hadoop2.6.0.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-examples-1.6.1-hadoop2.6.0.jar;D:\Program Files (x86)\JetBrains\IntelliJ IDEA 15.0.5\lib\idea_rt.jar" com.intellij.rt.execution.application.AppMain mllib.CollaborativeFilteringSpark CollaborativeFilteringSpark Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/G:/home/download/spark-1.6.1-bin-hadoop2.6/lib/spark-assembly-1.6.1-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/G:/home/download/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 16/08/04 20:41:49 INFO Slf4jLogger: Slf4jLogger started 16/08/04 20:41:49 INFO Remoting: Starting remoting 16/08/04 20:41:49 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriverActorSystem@192.168.1.100:8380] 张三 相对于 张三 的相似性分数是 0.9999999999999999 张三 相对于 李四 的相似性分数是 0.7089175569585667 张三 相对于 王五 的相似性分数是 0.6055300708194983 张三 相对于 赵六 的相似性分数是 0.564932682866032 张三 相对于 阿七 的相似性分数是 0.8981462390204985 -------------------------------------------------------------------------- 李四 相对于 张三 的相似性分数是 0.7089175569585667 李四 相对于 李四 的相似性分数是 1.0000000000000002 李四 相对于 王五 的相似性分数是 0.8780541105074453 李四 相对于 赵六 的相似性分数是 0.6865554812287477 李四 相对于 阿七 的相似性分数是 0.6821910402406466 -------------------------------------------------------------------------- 王五 相对于 张三 的相似性分数是 0.6055300708194983 王五 相对于 李四 的相似性分数是 0.8780541105074453 王五 相对于 王五 的相似性分数是 1.0 王五 相对于 赵六 的相似性分数是 0.7774630169639036 王五 相对于 阿七 的相似性分数是 0.7416198487095662 -------------------------------------------------------------------------- 赵六 相对于 张三 的相似性分数是 0.564932682866032 赵六 相对于 李四 的相似性分数是 0.6865554812287477 赵六 相对于 王五 的相似性分数是 0.7774630169639036 赵六 相对于 赵六 的相似性分数是 1.0 赵六 相对于 阿七 的相似性分数是 0.738024966423108 -------------------------------------------------------------------------- 阿七 相对于 张三 的相似性分数是 0.8981462390204985 阿七 相对于 李四 的相似性分数是 0.6821910402406466 阿七 相对于 王五 的相似性分数是 0.7416198487095662 阿七 相对于 赵六 的相似性分数是 0.738024966423108 阿七 相对于 阿七 的相似性分数是 0.9999999999999998 16/08/04 20:41:51 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon. Process finished with exit code 0
作者:大数据和人工智能躺过的坑
出处:http://www.cnblogs.com/zlslch/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接,否则保留追究法律责任的权利。
如果您认为这篇文章还不错或者有所收获,您可以通过右边的“打赏”功能 打赏我一杯咖啡【物质支持】,也可以点击右下角的【好文要顶】按钮【精神支持】,因为这两种支持都是我继续写作,分享的最大动力!