精工致善丨多元統(tǒng)計分析之PCA、PLS-DA、OPLS-DA
什么是PCA, PLS-DA、OPLS-DA?
◆主成分分析(Principal Component Analysis,PCA),將多個變量通過線性變換以選出較少個數(shù)重要變量的無監(jiān)督分析方法,是一種多變量統(tǒng)計分析方法,又稱主分量分析。可以初步了解各組樣本之間的總體代謝物差異和組內(nèi)樣本之間的變異度大小,并可通過分析QC樣本進行質(zhì)量控制。
◆偏最小二乘法判別分析(Partial Least Squares Discrimination Analysis,PLS-DA)是一種有監(jiān)督的判別分析方法,是多變量統(tǒng)計分析方法。判別分析是一種根據(jù)觀察或測量到的若干變量值,來判斷研究對象如何分類的常用統(tǒng)計分析方法。PLS-DA能按照預先定義的分類(Y變量)最大化組間的差異,獲得比PCA更好的分離效果。
◆正交偏最小二乘判別分析( Orthogonal PLS-DA,OPLS-DA)是一種有監(jiān)督的判別分析方法,是多變量統(tǒng)計分析方法。OPLS-DA綜合了PLS-DA和正交信號過濾(orthogonal signal correction, OSC)技術,能夠把與預先設定的和分類無關的信息最大程度從原始矩陣分離,從而將最相關的因素集中到第一個主成份上,進而尋找該主成分的正交矯正軸方向,從而使得組間樣本分離效果更佳,使組內(nèi)差異弱化,組間差異最大化凸顯,且更適用于兩組樣本間的分離。PLS-DA可以用于兩組及以上組別的分類比較,而OPLS-DA通常用于兩組的對比,找差異物質(zhì)。
如何進行PCA, PLS-DA、OPLS-DA分析?
1.進入在線分析軟件
2.上傳數(shù)據(jù)
數(shù)據(jù)類型選擇濃度;數(shù)據(jù)格式選擇樣品在每一列(未配對),可根據(jù)實驗數(shù)據(jù)實際情況選擇樣品在每一行或是每一列、配對或未配對實驗;選擇上傳的文件,提交即可。
2.1上傳文件格式說明
①有樣本名和樣本分組信息,文件格式需為制表符分割的TXT文件或逗號分割的CSV文件。
②靶標中不能有希臘字母α、β等,用alpha、beta等替換。
示例1:
2.2檢查數(shù)據(jù)格式
檢查數(shù)據(jù)格式,是否有非數(shù)值數(shù)據(jù)、缺失值或其它特殊字符和標點符號,默認將缺失值及零值替換為其對應變量的最小正值的1/5。
3.數(shù)據(jù)處理
3.1選擇分析項目
4.圖形解讀
①PCA圖形解讀
碎石圖(scree plot)即貢獻率圖,是希望圖形一開始很陡峭,如懸崖一般,而剩下的數(shù)值都很小,如崖底的碎石一樣。顯示各主成分的特征值貢獻率。如圖中顯示PC1貢獻率為74.2%,PC2貢獻率為11.1%...
PCA得分圖有二維和三維兩種展示形式,在二維得分圖中橫坐標PC1表示第一主成分,縱坐標PC2表示第二主成分,百分比表示該主成分對數(shù)據(jù)集的解釋率,圓圈表示95%的置信區(qū)間;圖中的每個點表示一個樣品,同一個組的樣品使用同一種顏色表示,Group為不同的分組;PCA得分圖可以讓我們非常直觀地看出各個樣本之間的相似性。例如在一張PCA得分圖中,數(shù)個樣本的點聚在一起,那么就說明這幾個樣本之間的相似性非常高,反之,如果幾個樣本的點非常分散,則說明這幾個樣本之間的相似性比較低。還可以看出組間是否有差異、QC樣本是否穩(wěn)定。
荷載圖:把主成分1和主成分2的荷載點出一個二維圖以直觀的顯示它們?nèi)绾谓忉屧瓉淼淖兞康,這個圖就叫做荷載圖。每個點對應該物質(zhì)對第一主成分和第二主成分的相關系數(shù)。相關系數(shù)的絕對值越大說明主成分對該變量的代表性越大。
第一、二、三主成分3D繪圖在三維得分圖中,增加了第三個主成分,此時X軸表示PC1,Y軸表示PC3,Z軸表示PC2。
根據(jù)主成分1和主成分2畫出樣本分布的散點圖。橫縱坐標是主成分,各個向量代表原特征。向量在主成分上的投影可以代表兩者的相關程度。點之間的距離,反映它們對應的樣本之間的差異大小,兩點相距較遠,對應樣本差異大;兩點相距較近,對應樣本差異小,存在相似性。
②PLS-DA圖形解讀
VIP ( Variable Importance in Projection scores )變量重要性投影,通過變量投影重要度衡量各代謝物組分含量對樣本分類判別的影響強度和解釋能力,輔助標志代謝物的篩選。通常以VIP值>1作為篩選標準。
交叉驗證:R2是相關性系數(shù),表示這個模型的擬合性好不好,是一個定量的測量(范圍0-1),意味著所建立的模型能在多大程度上代表真實的數(shù)據(jù),一般當R2在0.7,0.8表示模型解釋能力較好。Q2表示PLS-DA模型的預測效果,一般Q2大于0.5表示預測能力較好,并且R2與Q2的值應該比較接近。
模型驗證permutation Test圖的橫坐標表示模型的準確率,縱坐標表示100次permutation Test中100個模型的準確率的頻數(shù),箭頭表示本PLS-DA模型準確率所在的位置。
③OPLS-DA圖形解讀
橫坐標表示OSC過程中的主要成分的得分值( Tp ) ,所以從橫坐標的方向可以看到組間的差異;縱坐標表示OSC過程中的正交成分的得分值(TO),所以從縱坐標上看出組內(nèi)的差異(組內(nèi)樣本間的差異)。
S-plot圖的橫坐標表示主成份與代謝物的協(xié)相關系數(shù),縱坐標表示主成份與代謝物的相關系數(shù)。
S-plot圖一般用來挑選與OSC過程中主要成分的相關性比較強的代謝物,從另一方面同時也可以挑選與Y相關性強的代謝物。越靠近兩個角的代謝物重要度越強。
模型驗證permutation Test圖的橫坐標表示模型的準確率,縱坐標表示100次permutation Test中100個模型的準確率的頻數(shù),箭頭表示本OPLS-DA模型準確率所在的位置。其中R2X和R2Y分別表示所建模型對X和Y矩陣的解釋率,Q2表示模型的預測能力,理論上R2、Q2數(shù)值越接近1說明模型越好,越低說明模型的擬合準確性越差。通常情況下, R2、Q2高于0.5較好,高于0.4即可接受。
從圖中可以看出Q2為0.994 , R2Y為1 , R2X為0.685 , Q2和R2Y的P值均小于0.01,說明permutation Test中隨機分組模型沒有結果優(yōu)于本OPLS-DA模型,一般情況下P<0.05時模型最佳。
5.繪圖平臺
https://www.metaboanalyst.ca/
MetaboAnalyst是一個代謝組學數(shù)據(jù)分析的綜合平臺。在當前的MetaboAnalyst (V5.0)支持原始MS光譜處理、綜合數(shù)據(jù)歸一化、統(tǒng)計分析、功能分析、薈萃分析以及與其他組學數(shù)據(jù)的綜合分析。