矩阵分析几何意义的整理.docx
- 文档编号:15360882
- 上传时间:2023-07-03
- 格式:DOCX
- 页数:13
- 大小:43.58KB
矩阵分析几何意义的整理.docx
《矩阵分析几何意义的整理.docx》由会员分享,可在线阅读,更多相关《矩阵分析几何意义的整理.docx(13页珍藏版)》请在冰点文库上搜索。
矩阵分析几何意义的整理
矩阵分析几何意义和透彻理解PCA勺一些整理
这是几篇很不错的文章集合在一起的一篇文章,有些内容来自blog,有些来自文献和
教程,解决了我遇到很多疑问,感谢把它推荐给我的人。
前四部分来自早期几篇blog,把
空间描述的形象且易懂,适合我们这些非数学专业的人搞明白一些抽象的问题。
一、矩阵的特征值概述:
矩阵特征值要讲清楚需要从线性变换入手,把一个矩阵当做一个线性变换在某一组基下的矩阵,最简单的是数乘变换,求特征值的目的就是看看一个线性
变换对一些非零向量的作用是否能够相当于一个数乘变换,特征值就是这个数乘变换的变换
比。
这样的一些向量就是特征向量,其实我们更矢心的是特征向量,希望把原先的线性空间
分解成一些向量相矢的子空间的直和,这样我们的研究就可以分别限定在这些子空间上来进
行,这和物理中研究运动的时候将运动分解成水平方向和垂直方向的做法是一个道理。
自相矢矩阵最大特征值和特征向量并没有和原来的哪个信号一一对应,而且特征分解本身的
含义相当于对原来的信号做了这样的正交分解。
使得各个分量之间相互不相矢,也就是K-
L展开,每一个特征值相当于原来各个信号导向矢量的线性组合,因此不能仅仅从某个特征矢量中直接对应原来某个信号的特征。
二、线性空间和矩阵的几个核心概念:
空间(space):
空间的数学定义是一个集合,在这个集合上定义某某概念,然后满足某些性
质,就可以被称为空间。
我们所生活的空间是一个三维欧几里德空间,我们所生活空间的特点:
(1)有很多(实际上是无穷多个)位置点组成
(2)这些点之间存在着相对尖系。
(3)可以咋空间中定义长度、角度。
(4)这个空间可以容纳运动(从一个点到一个点的移动,而不是微积分意义上的“连续”
性运动)
第(4)点是空间的本质特征,
(1)、
(2)两点是空间的基础而非性质,第(3)点在其
他空间也行并不具备,自然更不是尖键的性质。
只有第(4)点是空间的本质。
把三维空间的认识拓展到其他空间。
事实上,不管是什么空间,都必须容纳和支持在其中发生的符合规律的运动(变换)。
我们会发现,在某种空间中往往会存在一种相对应的变换,比如:
拓扑空间中有拓扑变换,线性空间中有线性变换,仿射空间中有仿射变换,其实这些变换都只不过是对应空间允许的运动形式而已。
例1•最高次项不大于n次的多项式的全体构成一个线性空间,也就是说,这个线性空间中每一个对象是一个多项式。
如果我们以X0,X1,X2,…..,Xn为基,那么任何一个这样的
多项式都可以表达为一组n+1维向量,其中的每一个分离ai其实就是多项式Xi-1项系数。
值得说明的是,基的选取有多种方法,只要所选取的那一组基线性无矢就可以。
例2・闭区间[a,b]上的n阶连续可微函数全体,构成一个线性空间。
也就是说,这个线性空间的每一个对象是一个连续函数。
对于其中任何一个连续函数,根据魏尔斯拉斯定律,
一定可以找到最高次不大于n的多项式函数,使之与该函数的差为0,也就是说完全相等。
这样就把问题归结为L1T。
三、线性代数的一个最根本问题一一线性空间中的运动,被称为线性变换。
也就是说,
你从线性空间中的一点运动到任意的另外一点,都可以通过一个线性变换来完成。
在线性空
间中,当你选定一组基之后,不仅可以用某个向量来描述空间中的任何一个对象,而且可以
用矩阵来描述该空间的任何一个运动(变换)。
而使某个对象发生相对运动的方法,就是用
代表那个运动的矩阵,乘以代表那个对象的向量,简而言之,在线性空间中选定基之后,向
量刻画对象,矩阵刻画对象的运动,用矩阵与向量的乘法施加运动。
甚至可以说:
“矩阵的
本质是运动的描述”。
在此不作详细说明,有兴趣的读者可以看看齐民友教授写的《重温微积分》,读了这部书的开头部分,就可以搞明白“高等数学是研究运动的数学”这句话的道理。
四、理解矩阵:
在《理解矩阵》的文章里,“运动”的概念不是微积分中连续性的运动,而是瞬间发生的变换。
比如物理学中量子的跃迁,物理上矩阵是线性空间里的跃迁的描述。
1•用数学用语描述变换,其实就是空间里从一个点(元素/对象)到另一个点(元素/
对象)的跃迁。
趣味逸事:
描述一个三维对象只需要三维向量,但是所有的计算机图形学变换都是04
的,这是因为在计算机图形学里的应用的图形变换,实际上是在仿射空间而非向量空间中进
行。
想想看,在向量空间里相应一个向量平行移动后仍是相同的那个向量(向量空间只是一
个线性空间,没有定义内积,即长度),而现实世界等长的两个平行线段当然不能被认为是同一个东西,所以计算机图形学的生存空间实际上是仿射空间。
而仿射空间的矩阵表示根本是
4*4的。
2•线性变换:
线性变换究竟是一种什么样的变换答:
线性变换就是从一个线性空间V
的某一点跃迁到另一个线性空间W的另一个点的运动。
也就是说一个点不仅可以变换到同一
个线性空间中的另一个点,而且可以变换到另一个线性空间中的另一个点。
不管怎样变换,只要变换前后都是线性空间中的对象,这个变换就一定是线性变换,也就是一定可以用非奇
异矩阵来描述(用非奇异矩阵去描述的一个变换一定是线性变换。
)
3•什么是基:
浅显的理解是只要把基看成是线性空间里的坐标系就可以了,虽然浅显,
但目前对于我们基本够用,注意是“坐标系”不是“坐标值”。
这样一来,选定一组基就是
说在线性空间里选定一个坐标系。
4•矩阵的完善:
讲了前面那么多内容,现在可以把矩阵定义完善了。
“矩阵是线性空间
中的线性变换的一个描述。
在一个线性空间中,只要我们选定一组基,那么对于任何一个线性变换,都能用一个确定的矩阵来加以描述。
”
理解“矩阵是线性空间中的线性变换的一个描述。
在一个线性空间中,只要我们选定一
组基,那么对于任何一个线性变换,都能用一个确定的矩阵来加以描述。
”这句话的矢键在
于把“线性变换”和“线性变换的描述”区别开。
一个是那个对象,一个是对那个对象的表述。
就好像我们熟悉的面向对象编程中,一个对象可以有多个引用,每个引用可以叫不同的
名字,但都是指同一个对象。
同样的,对于一个线性变换,只要你选定一组基,那么就可以找到一个矩阵来描述这个线性变换,换一组基就可以得到另一个不同的矩阵,所以这些矩阵
都是这同一个线性变换的描述,但又都不是线性变换本身。
这样一来,矩阵作为线性变换描述的一面,基本就说清楚了。
但是在线性代数中,矩阵
不仅可以作为线性变换的描述,而且可以作为一组基的描述。
而作为变换矩阵,不但可以把线性空间中一个点给变换到另一个点去,而且也能够吧线性空间中的一个坐标系(基)变换到另一个坐标系
(基)去。
而且变换点与变换坐标系具有异曲同工的效果。
(插曲)总结一下之前的主要内容:
(1)首先有空间,空间可以容纳对象的运动。
一种空间对于一类对象。
(2)有一种空间叫线性空间,线性空间是容纳向量运动对象运动的。
(3)运动是瞬时的,因此也被称为“变换”。
(3)矩阵是线性空间中的运动(变换)的描述。
(4)矩阵与向量相乘,就是实施运动(变换)的过程。
(5)同一个变换,在不同坐标系下表现为不同矩阵,但是它们的本质是一样的,所以值征值相同。
在数学分析中,最要紧的概念是一个对象可以表达为无穷多个合理选择的对象的线和,
这个概念是贯穿始终的,也是数学分析的精华。
5.如果一组向量是彼此线性无矢的话,那么它们就可以成为度量这个线性空间的一组
基,从而事实上成为一个坐标系体系,其中每一个向量都躺在一根坐标轴上,并且成为那根
坐标轴上的基本度量单位(长度是1)。
“对象的变换等于坐标系的变换”或者“固定坐标系下一个对象的变换等于固定对象所处的坐标变换。
”
例•把n,D点变换到(2,3)点有两种方法,第一种是当坐标系不变,点动,把(1,1)点挪到(2,3)点;第二种是点不动,坐标系动,把X轴的度量单位(单位向量)变换为原
来的1/2,把y轴的度量单位(单位向量)变换为原来的1/3,方式不同,但是结果一样。
6.“对坐标系施加变换的方法,就是让表示那个坐标系的矩阵与表示那个变换的矩阵相乘。
”
如果搞明白了上述结论,则矩阵M叫一方面表明坐标系N在运动M下的变换结果,另
一方面,把M当成N的前缀,当成N的环境描述,那就是说,在M坐标系度量下,有另一个坐标系N。
这个坐标系N如果放在I坐标系度量,其结果为坐标系M3在此,我们实际上
已经回答了一般人在学习线性代数时最困惑的一个问题,那就是为什么矩阵的乘法要规定成
这样。
原因如下:
(1)从变换的观点看,对坐标系N施加M变换,就是把组成坐标系N的每一个向量
施加M变换。
(2)从坐标系的观点看,在M坐标系中表现为N的另一个坐标系,这也归结为,对
N坐标系(基)的每一个向量,把它在I坐标系中找出来,然后汇成一股新矩
阵。
(3)至于矩阵乘以向量为什么要那样规定,那是因为在一个M中度量为a的向量,
如果想要恢复在I中的真像,就必须分别于M中的每一个向量进行内积运算。
7.矩阵运算的物理意义:
如果把矩阵看成是一
个2维坐标系离散值的几何,那么
(1)矩阵加法A+B就是A的各个点作平移,平移的度量是B当中的点。
(2)矩阵乘法A*B就是一种现象映射:
如果A是x/y坐标系,B是y/z坐标系,那么结果就是x—>z的映射
举个例子,A国家有三个城市,B国家有三个城市,C国家有两个城市,他们之间的道理状况用矩阵表示。
>B1,B2,B3
A1110
A2101W
A3110
>C1,C2
B11
0
B21
1Q
B30
1
答案:
W*Q=[(2,1),(1,1),(2,1)]
维的时候表现为函数的形式
f(z)=z,在多维的时候可以写成矩阵乘法。
当然限制条件是,矩阵能表示的是一个离散值的集合,当然方阵才有逆,方阵维数不变的N—一>“的一一映射,所以可能有且只有一个反映射,或者吗,没有反映射。
n—一>M的不同维数映射无法得到反映射。
到此,对矩阵已经有了较深入的理解,接下来内容就该讨论经常用到的特征值和特征向
五、特征值和特征向量的几何意义:
一个变换的特征向量是这样一种向量,它经过这
种特定变换后保持方向不变,只是长度伸缩而已(再想想特征向量的原始定义Ax=cx,就恍
然大悟了,ex是方阵A对向量x进行变换后的结果,但显然ex和x方向相同),而且x是特征向量的话,ax也是特征向量(a是标量且不为零),所谓的特征向量不是一个向量,而是一个向量簇,另外,特征值只不过反映了特征向量在变换过程中伸缩倍数而已,对一个变
换而言,特征向量指明的方向才是很重要,特征值不是那么重要,虽然我们求这两个量时,先求出特征值,但是特征向量才是更本质的东西。
spectraltheorem的核匚、内容如下:
一个线性变换(用矩阵乘法表示)可表示为它的
所有特征向量的一个线性组合,其中的线性系数就是每一个向量对应的特征值,写成公式就
是:
71vnXi(vj-vivi-FAjfvj*vVj4——
从这里可以看出,一个变换(矩阵)可由它的所有特征向量完全表示,而每一个向量对
应的特征值,就代表了矩阵在这一向量上的贡献率一一说的通俗点就是能量(power),至此
特征值翻身做了主人,彻底掌握了对特征向量的主动,你所能够代表这个矩阵的能量高低掌握在了特征值手中。
我们知道一个变换可以由一个矩阵乘法表示,那么一个空间坐标系也可视作一个矩阵,
而这个坐标系就可由这个矩阵的所有特征向量表示,用图来表示的话,可以想象就是一个空
间张开的各个坐标角度,这一组向量可以完全表示一个矩阵表示的空间“特征”,而他们的
特征值就表示了各个角度上的能量(可以想象成从各个角度伸出的长短,越长的轴就越可以
代表这个空间,它的“特征”就越强,或者说显性,而短轴自然就成立隐性特征。
),因此,
通过特征向量或特征值在几何(特别是空间几何)及其应用中得以发挥。
矢于特征向量(特别是特征值)的应用实在是太多太多,比如PCA方法,选特征值最高
的k歌特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法;还比如Google公式
的PageRank,也是通过计算一个用矩阵表示的图(这个图代表了整个Web各个网页“节点”
之间的矢联)的特征向量来对每一个节点打“特征值”分;再比如很多人脸识别,数据挖掘分析等方面都有应用。
六、特征向量的物理意义:
1•求特征向量的矢系,就是把矩阵A所代表的空间进行正交分解,使得A的集合可以
表示为每个a在各个特征向量上面的投影长度。
例如:
A是冲m矩阵,n>m那么特征向量就是m个
(因为秩最大是m),n个行向量在每个特征向量E上面有投影,其特征值V就是权
重。
那么每个行向量现在就可以写成Vn=(E1*V1n,E2*V2nJ-,Em*Vmr),矩阵变成了方阵。
如果矩阵的秩更小,矩阵的存储还可以压缩。
再:
由于这些投影的大小代表了A在特征空间
各个分量的投影,那么我们可以使用最小二乘法,求出投影能力最大的那些向量,而把剩下
的那些分量去掉,这样就最大限度地保持了矩阵代表的信息,同时可以大大降低矩阵需要存
储的维度,简称PCA
2.特征向量的物理含义:
举个例子,对于x,y平面上的一个点(x,y),我对它作线性
变换,心』)*口,0;0,-1],分号代表矩阵的换行,那么得到的结果就是(x,・y),这个线性变换相当于横轴x做镜像。
我们可以求出矩阵[1,0;0,-1]的特征向量有两个[1,0]和
[0,1],也就是x轴和y轴。
什么意思呢在x轴上的投影,经过这个线性变换,没有改变。
在丫轴上的投影,乘以了幅度系数,并没有发生旋转。
两个向量说明了这个线性变换矩阵对x轴和y轴这两个正交基是线性不变的,对于其他的线性变换矩阵,我们也可以找到类似
的,N个对称轴,变换后结果,矢于这N个对称轴线性不变。
这N个对称轴就是线性变换A
的N个特征向量。
这个是特征向量的物理含义所在。
所以矩阵等价于线性变换A。
对于实际应用的矩阵算法,经常需要求矩阵的逆:
当矩阵不是方阵时候无解,这是需要用到奇异值分解的办法,也就是A=PSQP和Q是互逆的矩阵,而S是一个方阵,然后求出
伪逆值。
同时A=PSC可以用来降低A的存储维数,只要P是一个瘦长方形矩阵,Q是宽扁型
矩阵。
对于A非常大的情况可以降低存储量好几个数量级。
3.特征值有什么特性说明可以分解成N维特征向量的投影上面,这N个特征值就是各
个投影方向上的长度,由于nF矩阵A可以投影在一个正交向量空间里面,那么任何N维特
征向量组成的矩阵都可以是线性投影变换矩阵,那么I就是一个同用的线性变换矩阵。
所以
对于特征值m一定有是构成了一个没有线性无矢向量的矩阵Aa=ma两边同乘以I得到
Aa=mal,m以(A・ml)a=0有非0解,那么|A-ml|=0(用反证法,如果这个行列式不是0,那
么N个向量线性无尖,在N维空间中只能相交于原点,不可能有非0解。
)所以可以推出一
些有用的性质:
(1)只要满足|A-ml|=O的值就是特征值。
(2)一个n*n的矩阵A,秩=1,那么最大无矢组=1组,特征向量■个,任意n维非零向量都是
A的特征向量。
特征向量本身不是定死的,这就好比坐标系可以旋转一样。
一旦特
征向量的各个方向确定了,那么特征向量也就确定了,求特征值的过程就是用特征方程|A-mi|=O,P
(1/A)=1/P(A)。
一个N维线性无矢的向量,去掉其中的一维,那么就有至少两个向量是线性相矢的了,所以行列式=0。
4.特征矩阵有什么作用把矩阵化为正定
矩阵,也就是A=Pa-IBP>这样的变换,A是对
角阵。
八、浅谈线性变换在图像处理方面的一些缺点:
1.线性变换PCA可以用来处理图像,女口2维人脸识别,具体做法步骤如下:
(1)我们把图像A看成是矩阵,进一步看成是线性变换矩阵,把这个训练图像的特
征矩阵求出来(假设取了n个能量最大的特征向量)。
用A乘以这个n+1特征向量,得到一个n维矢量a,也就是A在特征空间的投影。
(2)今后在识别的时候,同一类图形(例如,来自同一个人面部照片),认为是A
的线性相矢图像,它乘以这个特征向量,得到n个数字组成的一个b,也就
是B在特征空间的投影。
那么a和b之间的距离就是我们判断B是不是A的准则。
2.但是PCA有天生的缺点,就宿舍线性矢量相矢性考察有“平移无尖性”优点的同时,
也完全忽略了2维图形中,矢量分量之间的顺序是有意义的,顺序不同,可以代表完全不同
的信息。
就是图像B必须是A的某种伸缩(有特征向量空间决定),才能被很好的投影到A
的特征向量空间里面,如果B包含了A中某种旋转因素,那么PCA可以彻底失效。
所以PCA做人脸识别的识别效率不高,它要求图像有某种严格的方向对其和归一化,因此PCA一般不
用来直接做特征提取而是用来做特征矩阵降维。
当然,降维的结果用于分类页并不理想,我
们可以进一步做最小二乘拉开类间距离的Fisher变换。
但是Fisher变换会引入新的弱点一
—那就是对于训练类别的数据变得敏感了,分类效果上升的代价是通用性下降,当类型数据
急剧膨胀的时候,分类效果的函数仍然是直线下降的一一但是还是比直接PCA的分类效果要
好得多。
3.K-L变换是PCA变换的一个应用形式,假设图像类型C有N个图像,那么把每个图
像拉直成一个向量,N个图像的向量组成一个矩阵,求矩阵的特征向量(列向量),那么用
原来的N个图像乘以这些列向量求出平均值,就是我们的特征图像。
可以看到特征图像和原
图像有相似的地方,但是去掉了拉伸、平移相尖的一些形变信息。
在得到鲁棒性的同时,牺
牲了很多精确性。
所以它比较适合特定范围图像Verification工作,也就是判断图形P是
不是属于类型Co对比一下神经网络:
说白了把函数y=f(x)的映射,变成了[y]=[f(x)J的向
量映射。
输入输出点是固定的。
而真实的神经系统,并没有明显的内部处理和外部接口的区
分。
所以所有的神经网络理论,名字上是神经网络,实质上差的很远。
4.最后谈一下“谱”(spectrum)»我们知道音乐是一个动态的过程,但
是乐谱却是在
纸上的,静态的。
对于数学分析工具,研究时变函数时,可以研究傅里叶变换对应的频谱;
对于概率问题,虽然每次投骰子的结果不一样,但是可以求出概率分布的功率谱密度。
数学
作为一种形而上学的工具,研究重点就是这个变换世界当中那些不变的规律。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 矩阵 分析 几何 意义 整理