Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）-猿圈-程序猿的知识社区

　　不多说，直接上干货！

常见的推荐算法

　　1、基于关系规则的推荐

　　2、基于内容的推荐

　　3、人口统计式的推荐

　　4、协调过滤式的推荐

　　协调过滤算法，是一种基于群体用户或者物品的典型推荐算法，也是目前常用的推荐算法中最常用和最经典的算法。

　　协调过滤算法主要有两种：

　　　　用户对物品：考查具有相同爱好的用户对相同物品的评分标准进行计算；

　　　　物品对用户：考查具有相同物质的物品从而推荐给选择了某件物品的用户。

相似度度量（基于欧几里得距离的相似度计算和基于余弦角度的相似度计算）

　　　　（1）、基于欧几里得距离的相似度计算

　　　　　　　　欧几里得，是三维空间中两个点的真实距离。

　　　　　　　　欧几里得相似度计算是一种基于用户之间直线距离的计算方式。在相似度计算中，不同的物品或者用户可以将其定义为不同的坐标点，而特定目标定位为坐标原点。

　　　　　　　　在实际应用中，常常使用欧几里得距离的倒数作为相似度，即 1/ (d+1) 作为近似值。

　　　　（2）、基于余弦角度的相似度计算　　　　

　　　　　　　　不同的物品或者用户作为不同的坐标点，但不能为坐标原点。

　　其实，还有其他的算法，也可以来相似度度量。

基于欧几里得距离的相似度计算和基于余弦角度的相似度计算的区别

　　欧几里得相似度是以目标绝对距离作为衡量的标准，余弦相似度以目标差异的大小作为衡量标准。

　　欧几里得相似度注重目标之间的差异，与目标在空间中的位置直接相关。余弦相似度是不同目标在空间中的夹角，更加表现在前进趋势上的差异。

　　欧几里得相似度和余弦相似度具有不同的计算方法和描述特征，一般来说，欧几里得相似度用来表现不同目标的绝对差异性，分析目标之间的相似度与差异情况。而余弦相似度更多的是对目标从方向趋势上区分，对特定坐标数字不敏感。

基于余弦相似度计算不同用户之间相似性

　　步骤是：　　

　　（1）输入数据　　

　　（2）建立相似度算法公式

　　（3）计算不同用户之间的相似度

　　 CollaborativeFilteringSpark.scala

package zhouls.bigdata.chapter5


import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable.Map


object CollaborativeFilteringSpark {
  val conf = new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark ")    //设置环境变量
  val sc = new SparkContext(conf)                                 //实例化环境
  val users = sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))       //设置用户
  val films = sc.parallelize(Array("smzdm","ylxb","znh","nhsc","fcwr"))    //设置电影名
   
  val source = Map[String,Map[String,Int]]()                //使用一个source嵌套map作为姓名电影名和分值的存储
   val filmSource = Map[String,Int]()                     //设置一个用以存放电影分的map
   def getSource(): Map[String,Map[String,Int]] = {            //设置电影评分
     val user1FilmSource = Map("smzdm" -> 2,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 0,"fcwr" -> 1)
     val user2FilmSource = Map("smzdm" -> 1,"ylxb" -> 2,"znh" -> 2,"nhsc" -> 1,"fcwr" -> 4)
     val user3FilmSource = Map("smzdm" -> 2,"ylxb" -> 1,"znh" -> 0,"nhsc" -> 1,"fcwr" -> 4)
     val user4FilmSource = Map("smzdm" -> 3,"ylxb" -> 2,"znh" -> 0,"nhsc" -> 5,"fcwr" -> 3)
     val user5FilmSource = Map("smzdm" -> 5,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 1,"fcwr" -> 2)
     source += ("aaa" -> user1FilmSource)                //对人名进行存储
     source += ("bbb" -> user2FilmSource)                 //对人名进行存储
     source += ("ccc" -> user3FilmSource)                 //对人名进行存储
     source += ("ddd" -> user4FilmSource)                 //对人名进行存储
     source += ("eee" -> user5FilmSource)                 //对人名进行存储
     source                                        //返回嵌套map
   }

   //两两计算分值,采用余弦相似性
   def getCollaborateSource(user1:String,user2:String):Double = {
     val user1FilmSource = source.get(user1).get.values.toVector        //获得第1个用户的评分
     val user2FilmSource = source.get(user2).get.values.toVector        //获得第2个用户的评分
     val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble            //对公式分子部分进行计算
     val temp1  = math.sqrt(user1FilmSource.map(num => {            //求出分母第1个变量值
       math.pow(num,2)                                        //数学计算          
     }).reduce(_ + _))                                        //进行叠加
     val temp2  = math.sqrt(user2FilmSource.map(num => {            ////求出分母第2个变量值
       math.pow(num,2)                                     //数学计算
     }).reduce(_ + _))                                        //进行叠加
     val denominator = temp1 * temp2                            //求出分母
     member / denominator                                    //进行计算
}

   def main(args: Array[String]) {
     getSource()                                            //初始化分数
     val name = "bbb"                                        //设定目标对象
     users.foreach(user =>{                                    //迭代进行计算
     println(name + " 相对于 " + user +"的相似性分数是："+ getCollaborateSource(name,user))
    })
   }
 }

bbb 相对于 aaa的相似性分数是：0.7089175569585667
bbb 相对于 bbb的相似性分数是：1.0000000000000002
bbb 相对于 ccc的相似性分数是：0.8780541105074453
bbb 相对于 ddd的相似性分数是：0.6865554812287477
bbb 相对于 eee的相似性分数是：0.6821910402406466

　　当然，这里大家也可以进一步修改程序。

　　CollaborativeFilteringSpark.scala

package zhouls.bigdata.chapter5


import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable.Map


object CollaborativeFilteringSpark {
  val conf = new SparkConf().setMaster("local").setAppName("CollaborativeFilteringSpark ")    //设置环境变量
  val sc = new SparkContext(conf)                                 //实例化环境
  val users = sc.parallelize(Array("aaa","bbb","ccc","ddd","eee"))       //设置用户
  val films = sc.parallelize(Array("smzdm","ylxb","znh","nhsc","fcwr"))    //设置电影名
   
  val source = Map[String,Map[String,Int]]()                //使用一个source嵌套map作为姓名电影名和分值的存储
   val filmSource = Map[String,Int]()                     //设置一个用以存放电影分的map
   def getSource(): Map[String,Map[String,Int]] = {            //设置电影评分
     val user1FilmSource = Map("smzdm" -> 2,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 0,"fcwr" -> 1)
     val user2FilmSource = Map("smzdm" -> 1,"ylxb" -> 2,"znh" -> 2,"nhsc" -> 1,"fcwr" -> 4)
     val user3FilmSource = Map("smzdm" -> 2,"ylxb" -> 1,"znh" -> 0,"nhsc" -> 1,"fcwr" -> 4)
     val user4FilmSource = Map("smzdm" -> 3,"ylxb" -> 2,"znh" -> 0,"nhsc" -> 5,"fcwr" -> 3)
     val user5FilmSource = Map("smzdm" -> 5,"ylxb" -> 3,"znh" -> 1,"nhsc" -> 1,"fcwr" -> 2)
     source += ("aaa" -> user1FilmSource)                //对人名进行存储
     source += ("bbb" -> user2FilmSource)                 //对人名进行存储
     source += ("ccc" -> user3FilmSource)                 //对人名进行存储
     source += ("ddd" -> user4FilmSource)                 //对人名进行存储
     source += ("eee" -> user5FilmSource)                 //对人名进行存储
     source                                        //返回嵌套map
   }

   //两两计算分值,采用余弦相似性
   def getCollaborateSource(user1:String,user2:String):Double = {
     val user1FilmSource = source.get(user1).get.values.toVector        //获得第1个用户的评分
     val user2FilmSource = source.get(user2).get.values.toVector        //获得第2个用户的评分
     val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble            //对公式分子部分进行计算
     val temp1  = math.sqrt(user1FilmSource.map(num => {            //求出分母第1个变量值
       math.pow(num,2)                                        //数学计算          
     }).reduce(_ + _))                                        //进行叠加
     val temp2  = math.sqrt(user2FilmSource.map(num => {            ////求出分母第2个变量值
       math.pow(num,2)                                     //数学计算
     }).reduce(_ + _))                                        //进行叠加
     val denominator = temp1 * temp2                            //求出分母
     member / denominator                                    //进行计算
}

   def main(args: Array[String]) {
     getSource()                                            //初始化分数
     var name = "bbb"                                        //设定目标对象
     users.foreach(user =>{                                    //迭代进行计算
     println(name + " 相对于 " + user +"的相似性分数是："+ getCollaborateSource(name,user))
    })
    
    println()
    name = "aaa"     
    users.foreach(user => {
      //迭代进行计算
      println(name + " 相对于 " + user + "的相似性分数是：" + getCollaborateSource(name, user))
    })
    
   }
 }

　　或者，也可以写下程序，如下

UserSimilar.scala

package zhouls.bigdata

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkContext, SparkConf}
import scala.collection.mutable.Map

object UserSimilar {

  //屏蔽不必要的日志显示在终端上
  Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
  Logger.getLogger("org.apache.eclipse.jetty.server").setLevel(Level.OFF)

  //程序入口
  val conf = new SparkConf().setMaster("local[1]").setAppName(this.getClass().getSimpleName().filter(!_.equals('$')))
  println(this.getClass().getSimpleName().filter(!_.equals('$')))

  val sc = new SparkContext(conf)

  //设置用户名
  val users = sc.parallelize(Array("张三", "李四", "王五", "赵六", "阿七"))
  //设置电影名
  val films = sc.parallelize(Array("逆战", "人间", "鬼屋", "西游记", "雪豹"))

  //使用一个source嵌套map作为姓名电影名和分值的存储
  val source = Map[String, Map[String, Int]]()

  //设置一个用以存放电影分的map
  val filmSource = Map[String, Int]()


  def getSource(): Map[String, Map[String, Int]] = {
    //设置电影评分
    val user1FilmSource = Map("逆战" -> 2, "人间" -> 3, "鬼屋" -> 1, "西游记" -> 0, "雪豹" -> 1)
    val user2FilmSource = Map("逆战" -> 1, "人间" -> 2, "鬼屋" -> 2, "西游记" -> 1, "雪豹" -> 4)
    val user3FilmSource = Map("逆战" -> 2, "人间" -> 1, "鬼屋" -> 0, "西游记" -> 1, "雪豹" -> 4)
    val user4FilmSource = Map("逆战" -> 3, "人间" -> 2, "鬼屋" -> 0, "西游记" -> 5, "雪豹" -> 3)
    val user5FilmSource = Map("逆战" -> 5, "人间" -> 3, "鬼屋" -> 1, "西游记" -> 1, "雪豹" -> 2)

    //对人名进行储存
    source += ("张三" -> user1FilmSource)
    source += ("李四" -> user2FilmSource)
    source += ("王五" -> user3FilmSource)
    source += ("赵六" -> user4FilmSource)
    source += ("阿七" -> user5FilmSource)

    //返回嵌套map
    source
  }

  //两两计算分值，采用余弦相似性
  def getCollaborateSource(user1: String, user2: String): Double = {
    //获得1，2两个用户的评分
    val user1FilmSource = source.get(user1).get.values.toVector
    val user2FilmSource = source.get(user2).get.values.toVector

    //对公式部分分子进行计算
    val member = user1FilmSource.zip(user2FilmSource).map(d => d._1 * d._2).reduce(_ + _).toDouble
    //求出分母第一个变量值
    val temp1 = math.sqrt(user1FilmSource.map(num => {math.pow(num, 2)}).reduce(_ + _))
    //求出分母第二个变量值
    val temp2 = math.sqrt(user2FilmSource.map(num => {math.pow(num, 2)}).reduce(_ + _))
    //求出分母
    val denominator = temp1 * temp2
    //进行计算
    member / denominator
  }

  def main(args: Array[String]) {
    //初始化分数
    getSource()

    val name1 = "张三"
    val name2 = "李四"
    val name3 = "王五"
    val name4 = "赵六"
    val name5 = "阿七"

    users.foreach(user => {
      println(name1 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name1, user) )
    })

    println("--------------------------------------------------------------------------")

    users.foreach(user => {
      println(name2 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name2, user) )
    })

    println("--------------------------------------------------------------------------")

    users.foreach(user => {
      println(name3 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name3, user) )
    })

    println("--------------------------------------------------------------------------")

    users.foreach(user => {
      println(name4 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name4, user) )
    })

    println("--------------------------------------------------------------------------")

    users.foreach(user => {
      println(name5 + " 相对于 " + user + " 的相似性分数是 " + getCollaborateSource(name5, user) )
    })

  }

}

　　结果是

"C:\Program Files\Java\jdk1.8.0_77\bin\java" -Didea.launcher.port=7534 "-Didea.launcher.bin.path=D:\Program Files (x86)\JetBrains\IntelliJ IDEA 15.0.5\bin" -Dfile.encoding=UTF-8 -classpath "C:\Program Files\Java\jdk1.8.0_77\jre\lib\charsets.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\deploy.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\access-bridge-64.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\cldrdata.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\dnsns.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\jaccess.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\jfxrt.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\localedata.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\nashorn.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunec.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunjce_provider.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunmscapi.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\sunpkcs11.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\ext\zipfs.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\javaws.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jce.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jfr.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jfxswt.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\jsse.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\management-agent.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\plugin.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\resources.jar;C:\Program Files\Java\jdk1.8.0_77\jre\lib\rt.jar;G:\location\spark-mllib\out\production\spark-mllib;C:\Program Files (x86)\scala\lib\scala-actors-migration.jar;C:\Program Files (x86)\scala\lib\scala-actors.jar;C:\Program Files (x86)\scala\lib\scala-library.jar;C:\Program Files (x86)\scala\lib\scala-reflect.jar;C:\Program Files (x86)\scala\lib\scala-swing.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-api-jdo-3.2.6.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-core-3.2.10.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\datanucleus-rdbms-3.2.9.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-1.6.1-yarn-shuffle.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-assembly-1.6.1-hadoop2.6.0.jar;G:\home\download\spark-1.6.1-bin-hadoop2.6\lib\spark-examples-1.6.1-hadoop2.6.0.jar;D:\Program Files (x86)\JetBrains\IntelliJ IDEA 15.0.5\lib\idea_rt.jar" com.intellij.rt.execution.application.AppMain mllib.CollaborativeFilteringSpark  
CollaborativeFilteringSpark  
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties  
SLF4J: Class path contains multiple SLF4J bindings.  
SLF4J: Found binding in [jar:file:/G:/home/download/spark-1.6.1-bin-hadoop2.6/lib/spark-assembly-1.6.1-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]  
SLF4J: Found binding in [jar:file:/G:/home/download/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]  
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.  
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]  
16/08/04 20:41:49 INFO Slf4jLogger: Slf4jLogger started  
16/08/04 20:41:49 INFO Remoting: Starting remoting  
16/08/04 20:41:49 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriverActorSystem@192.168.1.100:8380]  
张三 相对于 张三 的相似性分数是 0.9999999999999999  
张三 相对于 李四 的相似性分数是 0.7089175569585667  
张三 相对于 王五 的相似性分数是 0.6055300708194983  
张三 相对于 赵六 的相似性分数是 0.564932682866032  
张三 相对于 阿七 的相似性分数是 0.8981462390204985  
--------------------------------------------------------------------------  
李四 相对于 张三 的相似性分数是 0.7089175569585667  
李四 相对于 李四 的相似性分数是 1.0000000000000002  
李四 相对于 王五 的相似性分数是 0.8780541105074453  
李四 相对于 赵六 的相似性分数是 0.6865554812287477  
李四 相对于 阿七 的相似性分数是 0.6821910402406466  
--------------------------------------------------------------------------  
王五 相对于 张三 的相似性分数是 0.6055300708194983  
王五 相对于 李四 的相似性分数是 0.8780541105074453  
王五 相对于 王五 的相似性分数是 1.0  
王五 相对于 赵六 的相似性分数是 0.7774630169639036  
王五 相对于 阿七 的相似性分数是 0.7416198487095662  
--------------------------------------------------------------------------  
赵六 相对于 张三 的相似性分数是 0.564932682866032  
赵六 相对于 李四 的相似性分数是 0.6865554812287477  
赵六 相对于 王五 的相似性分数是 0.7774630169639036  
赵六 相对于 赵六 的相似性分数是 1.0  
赵六 相对于 阿七 的相似性分数是 0.738024966423108  
--------------------------------------------------------------------------  
阿七 相对于 张三 的相似性分数是 0.8981462390204985  
阿七 相对于 李四 的相似性分数是 0.6821910402406466  
阿七 相对于 王五 的相似性分数是 0.7416198487095662  
阿七 相对于 赵六 的相似性分数是 0.738024966423108  
阿七 相对于 阿七 的相似性分数是 0.9999999999999998  
16/08/04 20:41:51 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon.  
  
Process finished with exit code 0

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8677 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览