参考视频:

https://www.bilibili.com/video/BV1E5411E71z/?spm_id_from=autoNext&vd_source=3ad05e655a5ea14063a9fd1c0dcdee3e

https://www.bilibili.com/video/BV1C7411A7bj/?spm_id_from=autoNext&vd_source=3ad05e655a5ea14063a9fd1c0dcdee3e

 

因为后续处理可能要大量的计算,如果你不降维为的话处理的数据将指数增长。

 

 

对于一个二维数据,当我们考虑两个主成分信息的时候,其实就已经包含原数据的所有信息了;

数据最分散就是方差最大,即投射到低维面后数据的方差要最大,否则方差小,数据不分散,就表示投射到一维平面的数据很多重合了;

 

 

 

所以投影和方差挂钩是因为先把均值等于0了;最大投影方差,最小重构距离;方差最大就是偏离程度最大;

信息。

 

 

方差最大就是偏离程度最大;还有就是点到轴1的距离和最小;这个斜率不会就是直线拟合的斜率吧?

方差最小的那个同学,你把第一主成分轴找错了,另一条轴上面方差最大,保留的元数据的信息最多,因此才是第一主成分轴;

 

 

方差大才表明蕴含更多的信息;应该是中心化吧;mean-centering procedure;

那么主成分分析怎么得到相关度的呢?

去中心化是为了接下来求协方差矩阵时不会被数据数值影响。

 

降维映射 线性变换;那么主成分分析怎么得到相关度的呢?去中心化是为了接下来求协方差矩阵时不会被数据数值影响;放在数据中心,数据中心不一定有数据(离散)所以也可以说是去中心化;李航的书上成为规范化;我理解去中心化是为了降低计算量;不去中心化的话,一些角度是取不到的;中心化~求特征向量和特征值~映射新坐标点~协方差对角化验证;

你拿到了数据以后,自然就可以算出数据的中心在哪里,从而可以中心化。那么最大的问题在于如何找到数据方差最大的方向?因为我们要存储的是最开始提到的,我们需要保存的信息是新的坐标系的原点、新的坐标系的角度、以及新的坐标点。新的坐标系的原点是很容易找到的,但是新的坐标系的角度正是PCA想要找到的,在找到角度之前,我们先看一下数据的线性变换。

 

 

左乘初等矩阵相当于进行初等行变换;s把原来的坐标的x轴拉伸了两倍;

 

 

 

 

 

 

如上图所示逆时针旋转了一定的角度,红色的箭头方向J也同样旋转到了一个新的方向。

 

就是为了让点散开一点,以便找角度和求方差;

 

 

 

第一种里的2就是特征值;R矩阵的负号应该放到左下角去;

 

 

 

这些基础不理解清楚的话也很难解释清楚降维到底是什么;左乘是行变换;

白数据在没拉伸之前应该每个方向的方差都是一样的,拉伸的方向就说最宽的方向也就是数据最宽的方向;

把左乘看做变换,也就是D先做S变换,再做R变换;应该是旋转导致了xy从不相关变成了相关;

因为需要方差最大,应该是讲方差最大是需要达到的目的

D通过一个白数据先左乘S再左乘R,得到D’。这个拉伸旋转的作用;首先我们拉伸的时候就已经确定了拉伸的方向就是方差最大的方向,然后在旋转,旋转的角度决定了我们方差最大方向的角度是多大。所以我们要求的就是这个R矩阵,也就是他转了多少度,如果我们能求出这个R的话,就相当于PCA已经解决了。因为PCA就是要找到这个坐标系;

其是,上述我们把白数据D转换成D’。同时D’也可以转换回来,我们可以把D’左乘R的逆矩阵,然后再左乘S的逆矩阵,即可转换回原来的白数据D。

 

 

 

 

 

同理如果x与其自身的协方差cov(x,x),那就等于方差。

 

当数据拉伸和旋转时,协方差的值也会随之改变。

协方差矩阵正对角线上是变量自己与自己的协方差也等于其自身的方差。

如果x,y不相关的话那么协方差就是0;协方差矩阵,也就只剩下对角线,而对角线而中心化后x,y的方差又都是1;那么此时协方差矩阵C就如上图左下角所示,(二维的话)就变成了单位矩阵。

 

如果,数据是正相关的如上图中B的分布所示,那么协方差矩阵中不同变量的协方差值就都是正值大于0的;如果是如C所示的分布,那么就是负相关(也即x增大时y有减小的趋势),从左上往右下倾斜。

 

 

 

 

 

 

 

 

 

原文地址:http://www.cnblogs.com/Li-JT/p/16837206.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性