研究與開發(fā)
數(shù)據(jù)分析
多變量統(tǒng)計(jì)方法可以達(dá)到降維的目的,并且不受變量多重共線性的限制。
譜圖經(jīng)過一定的前處理,然后進(jìn)行分段積分,通常一張譜圖會(huì)分成上千個(gè)積分段,每一段就是一個(gè)變量,每個(gè)樣本的特征就由這些變量來共同定義的。
在積分?jǐn)?shù)據(jù)用于多變量分析之前,先要對(duì)數(shù)據(jù)進(jìn)行歸一化(normalization)和標(biāo)準(zhǔn)化(scaling)處理。
代謝組學(xué)數(shù)據(jù)分析中常用的多變量統(tǒng)計(jì)分析方法主要包括主成分分析(principal component analysis,PCA),偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)和正交化偏最小二乘判別分析(orthogonal projection to latent structure discriminant analysis,OPLS-DA)。
在代謝組學(xué)研究中,由于樣本量有限,通常使用內(nèi)部驗(yàn)證方法對(duì)模型的有效性進(jìn)行檢驗(yàn)。常用的內(nèi)部驗(yàn)證方法有交叉驗(yàn)證(cross-validation,CV)、排列實(shí)驗(yàn)(permutation test)和CV-ANOVA(varianceanalysis of the cross-validated residuals)。
經(jīng)過驗(yàn)證確實(shí)有效的模型,可以通過提取其第一主成分找到對(duì)組間區(qū)分貢獻(xiàn)大的變量,即發(fā)生顯著性變化的代謝物。變量是否對(duì)組間區(qū)分有顯著性貢獻(xiàn)通過變量與第一主成分得分值的Pearson 相關(guān)系數(shù)r 來確定,根據(jù)樣本量和r 臨界值表來確定P < 0.05 時(shí)具有統(tǒng)計(jì)學(xué)顯著性的臨界值。第一主成分的載荷(loading)經(jīng)過回溯轉(zhuǎn)換,采用Matlab 軟件等可以繪制出相關(guān)系數(shù)負(fù)載圖。