注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

和申的个人主页

专注于java开发,1985wanggang

 
 
 

日志

 
 

余弦相似性  

2013-08-30 12:34:37|  分类: 名词解释 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

余弦相似性 通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向量的夹角小于90°之内,因此余弦相似度的值为01之间。

值得注意的是余弦相似度可以用在任何维度的向量比较中,它尤其在高维正空间中的利用尤为频繁。例如在信息检索中,每个词条拥有不同的度,一个文档是由一个由有权值的特征向量表示的,权值的计算取决于词条在该文档中出现的频率。余弦相似度因此可以给出两篇文档其主题方面的相似度。

另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,用它来衡量集群内部的凝聚力。[1]

定义

两个向量间的余弦值可以很容易地通过使用欧几里得点积和量级公式推导:

余弦相似性 - 和申 - 和申的个人主页
 

鉴于两个向量的属性, A B的余弦相似性θ用一个点积形式来表示其大小,如下所示:

余弦相似性 - 和申 - 和申的个人主页
 

产生的相似性范围从-11-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中度的相似性或相异性。 对于文本匹配,属性向量A B 通常是文档中的词频向量。余弦相似性,可以被看作是一个规范比较文件长度的方法。 信息检索的情况下,由于一个词的频率(TF-IDF权)不能为负数,所以这两个文档的余弦相似性范围从01。并且,两个词的频率向量之间的角度不能大于90°

角的相似性

"余弦相似性" 有时也被用来表达不同的系数,但最常见的是像上述定义那样的。同相似性的计算方法相似,向量之间规范化的的角度可以作为一个范围在[0,1]上的有界相似性函数,从上述定义的相似性计算方法如下: 余弦相似性 - 和申 - 和申的个人主页

 

在这一公式中,向量系数可能是正,也可能是负,或者 余弦相似性 - 和申 - 和申的个人主页

 

而在这一式子中,向量系数总是正的。 虽然 "余弦相似性" 一词已用于角距离,但是它很奇妙地仅作为一种计算角度的简便方法而本身并无此意思。角的相似系数的优点是,当作为一个差异系数(从1减去它)时,在不为第一要义的情况下,产生的功能是一个适当的距离矩阵。然而,对于大多数的用途,这不是一个重要的属性。对于任何用途,只有在一组向量的相似性或距离的相对顺序是很重要的,那么该函数在产生顺序时受选择的影响是无关紧要的。

"塔尼莫特"系数的困惑

有时,余弦相似性作为特殊形式的相似系数和如下类似的代数形式相混淆了:

余弦相似性 - 和申 - 和申的个人主页
 

事实上,这个代数形式在计算Jaccard系数时以位向量作为被比较的集的机制首次被塔尼莫特定义。虽然公式扩展到一般的向量,它具有和余弦相似完全不同的性质,并且承担重要的关系。

落和系数

这个系数在在生物学中也叫落合系数或落合Barkman系数[2][3]余弦相似性 - 和申 - 和申的个人主页

 

另见

·         索伦森的智商的相似性

·         海明距离

·         相关性

·         骰子的系数

·         Jaccard指数

·         SimRank

·         信息检索

外部链接

·         加权的余弦措施

·         http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html#Cosim

参考文献

1.     ^ P.-N. Tan, M. Steinbach & V. Kumar, "Introduction to Data Mining", , Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.

2.     ^ Ochiai A. Zoogeographical studies on the soleoid fishes found Japan and its neighboring regions. II // Bull. Jap. Soc. sci. Fish. 1957. V. 22. № 9. P. 526-530.

3.     ^ Barkman J.J. Phytosociology and ecology of cryptogamic epiphytes, including a taxonomic survey and description of their vegetation units in Europe. – Assen. Van Gorcum. 1958. 628 p.

 摘自:http://zh.wikipedia.org/wiki/余弦相似性

统计信息唧唧歪歪唧唧网ggyygg.net
  评论这张
 
阅读(953)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016