博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
metric learning -- 马氏距离与欧氏距离
阅读量:4640 次
发布时间:2019-06-09

本文共 1516 字,大约阅读时间需要 5 分钟。

一 基本概念

 方差:(variance)是在概率论和统计方差衡量或一组数据时离散程度的度量。概率论中方差用来度量和其(即)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的。在许多实际问题中,研究方差即偏离程度有着重要意义。

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
为总体方差,
为变量,
为总体均值,
为总体例数。
 
记住,欧氏距离不是方差,欧氏距离是定义了两个值之间的距离!!!!!!
同样,马氏距离也不是协方差!!!!!!!
 

协方差:标准差与方差是描述一维数据的,当存在多维数据时,我们通常需要知道每个维数的变量中间是否存在关联。协方差就是衡量多维数据集中,变量之间相关性的统计量。比如说,一个人的身高与他的体重的关系,这就需要用协方差来衡量。如果两个变量之间的协方差为正值,则这两个变量之间存在正相关,若为负值,则为负相关。

在 和统计学中,协方差用于衡量两个变量的总体误差。而 是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为
E[
X]与
E[
Y]的两个实随机变量
X
Y之间的协方差
Cov(X,Y)定义为:
从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果
X
Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足
E[
XY]=
E[
X]
E[
Y]。

 

二 马氏距离

马氏距离是由印度统计学家马哈拉诺比斯()提出的,表示数据的距离。

协方差矩阵,当变量多了,超过两个变量了。那么,就用协方差矩阵来衡量这么多变量之间的相关性。假设 X 是以 n 个随机变数(其中的每个随机变数是也是一个向量,当然是一个行向量)组成的列向量:

 

 

 

 马氏距离:它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。

 

 

 将马氏距离用于人脸识别时,x是预测出的数值,μ是期望(标签)。人脸图像大小为200*200时,那么x应该是200*200大小的,相应地,协方差矩阵也时一个大矩阵的,而Dm(x)则是标量。

而欧氏距离用于人脸识别,x是预测出的额值,μ是期望(标签)。人脸图像大小为200*200时,那么X也是200*200的,但是输出σ2也是标量。

 

 

knn中,使用马氏距离比使用欧式距离好,为什么?

knn中,使用马氏距离,则协方差矩阵是训练集的协方差矩阵。d=(x-y)‘R^-1(x-y)

使用欧式距离d = (x-y)’(x-y)

不同之处在于马氏距离,多乘一个R^-1,从而得到的距离必然与欧氏距离不同。而给x分类的关键局势距离的大小,选择合适的距离度量是大事。

但说到底,都是计算两个距离,然后使用投票方式,选出x的标签。

http://blog.csdn.net/zb1165048017/article/details/48579743

 

转载于:https://www.cnblogs.com/mengmengmiaomiao/p/7597533.html

你可能感兴趣的文章
Some configure
查看>>
json_encode时中文编码转正常状态
查看>>
流量调整和限流技术 【转载】
查看>>
Axure 全局辅助线(转)
查看>>
正由另一进程使用,因此该进程无法访问此文件。
查看>>
1 线性空间
查看>>
VS不显示最近打开的项目
查看>>
MyEclipse安装Freemarker插件
查看>>
计算多项式的值
查看>>
DP(动态规划)
查看>>
chkconfig
查看>>
TMS320F28335项目开发记录2_CCS与JTAG仿真器连接问题汇总
查看>>
最强的篮球队和马尔可夫模型
查看>>
hdu-4302-Holedox Eating-线段树-单点更新,有策略的单点查询
查看>>
pyQt 每日一练习 -- 登录框
查看>>
wp 删除独立存储空间文件(多级非空文件夹删除)
查看>>
Loadrunner安装使用入门
查看>>
smartupload 上传文件时 把页面编码改成gbk 解决乱码
查看>>
EPS是什么格式
查看>>
Python的数据库操作(Sqlalchemy)
查看>>