标签归档:PCA

PCA主成分分析和NMF非负矩阵分解感悟

以前只了解PCA分析,这两天看到有用非负矩阵分解NMF提取肿瘤突变特征的,遂了解了下NMF。我关注的是如何理解这两种分析,实现的话,可以找相应的R包Python包来做。

样本数:M
属性数:N
如果属性N过多话,数据存储占地方,直接分析N个属性也看不出什么,所以要降维,要研究重点。

维数由N降到X,比如降到两维

PCA分析通过分解协方差矩阵,找的是N个属性中对方差贡献靠前的X个属性,即能解释大部分variance。
样本1=0.5*属性1N1+0.2*属性1N4
样本2=0.5*属性1N2+0.2*属性2N4

NMF分析找的是X组包含对N个属性的加权值(或系数)的向量(每个属性的分解成由X个特征表示), M*N=M*X x X*N,M*N为原始矩阵,M*X为基矩阵(每一列对应X组特征的基值),X*N为系数矩阵(每一行为一组特征)。最终还是利用了N个属性,但是利用的X组特征,每一组特征包含不同权重的N个属,X组特征共同对原始值有贡献(贡献的强度不同而已)。
样本1=0.5*特征a+0.2*特征b+0.3*特征c
样本2=0.1*特征a+0.2*特征b+0.7*特征c

PCA主要用于降维
NMF应用于非负的矩阵,一是可以降维,二还可以提取特征,看哪些特征贡献大。

参考阅读:
http://www.cnblogs.com/zhangchaoyang/articles/2222048.html
http://blog.csdn.net/acdreamers/article/details/44663421

继续阅读