關(guān)于我們
新文速遞丨J Hazard Mater污水樣本非靶檢測與快速分析
前言
殺蟲劑、藥物、工業(yè)化學品等環(huán)境污染物在水樣中無處不在,盡管濃度很低,但其高毒性仍然對生活在水系統(tǒng)中的生物和人類社會構(gòu)成了極大威脅。污染物檢測和鑒定往往通過液相色譜與高分辨率質(zhì)譜聯(lián)用的非靶向分析(NTA)進行。但一個復雜的環(huán)境或生物樣品會產(chǎn)生上千個特征,質(zhì)譜會篩選出大量候選化合物,對候選化合物的優(yōu)先級排序極其重要也極具挑戰(zhàn)性。
2023年4月,復旦大學環(huán)境科學與工程系方明亮教授團隊與新加坡南洋理工大學李光前醫(yī)學院王玉蘭團隊在《Journal of Hazardous Materials》期刊上發(fā)表題為“An automated toxicity based prioritization framework for fast chemical characterization in non-targeted analysis”的研究成果。該研究使用光譜匹配、保留時間預(yù)測、毒性預(yù)測和ToxPi 評分進行計算融合,通過自動化 R 包工作流程 NTA prioritization.R 簡化了費力的優(yōu)先級排序,以減少特征數(shù)量,從而可以快速識別出對環(huán)境或人類構(gòu)成風險的污染物。原文鏈接:https://doi.org/10.1016/j.jhazmat.2023.130893。
研究亮點
1)使用組合算法(多個過濾器條件)對污染物進行優(yōu)行級排序
2)光譜匹配、保留時間預(yù)測、毒性預(yù)測的集成式工作流程
3)使用R自動化排序優(yōu)先級,極大提高效率
4)能對污水樣本中約7000種候選污染物進行優(yōu)先級排序
研究思路
作者建立了如圖1所示的工作流程包括(A)使用數(shù)據(jù)非依賴采集(DIA)模式通過 LC-HRMS 分析樣品,(B)對采集后的原始數(shù)據(jù)進行解卷積,并通過實驗或計算機質(zhì)譜庫搜索生成候選列表,(C)使用隨機森林預(yù)測模型預(yù)測候選化合物的保留時間,根據(jù)用戶定義的光譜匹配分數(shù)和保留時間預(yù)測閾值,候選化合物被優(yōu)先劃分為4個級別(RT-MS/MS水平1-4),(D)根據(jù) EPA TEST 軟件預(yù)測用戶定義的6個端點毒性閾值和 ToxCast毒性數(shù)據(jù)庫搜索的ToxPi 評分,候選化合物被優(yōu)先劃分為3個級別(毒性水平1-3),(E)最后通過結(jié)合 RT-MS/MS 水平和毒性水平,將候選化合物按優(yōu)先級降序排列為5個等級。
圖1基于 NTA 的優(yōu)先級排序工作流程
首先,作者將獲取的原始數(shù)據(jù)在 Waters Progenesis QI 軟件的協(xié)助下分六個步驟進行預(yù)處理,如圖2所示:(A)正模式下的峰提。˙)峰比對(C)解卷積(D)多變量分析(E)Progenesis MetaScope 的譜庫搜索和 MS/MS 譜圖匹配(F)建立包含化合物名稱、化合物ID、中性質(zhì)量、m/z、保留時間等信息的化合物候選列表。
圖2對原始數(shù)據(jù)預(yù)處理獲取候選列表的工作流程
接著,作者使用基于保留時間和分子特性以及分子結(jié)構(gòu)之間的定量結(jié)構(gòu)保留關(guān)系(QSRR) 的隨機森林回歸模型預(yù)測候選化合物的 RT。將146 種化合物的實測保留時間根據(jù)75:25的比例進行模型訓練和測試,使用基于R平臺的化學開發(fā)工具包(rCDK),基于簡化的分子輸入線輸入系統(tǒng)(SMILES)計算分子描述參數(shù)。SMILES被解析后用于計算每個化合物286個化學描述參數(shù),通過消除空值、常量值和高度相關(guān)的描述參數(shù)(R2>0.9),剩余的166個化學描述參數(shù)導入到建模功能中,用于超參數(shù)優(yōu)化。作者使用遞歸特征消除和10倍交叉驗證來優(yōu)化描述參數(shù)的數(shù)量,最終根據(jù)均方根誤差(RMSE)最低選擇了25個最重要的描述參數(shù)用于模型訓練,在模型訓練期間使用了10 倍交叉驗證提供更可靠的預(yù)測。
最后,作者使用EPA TEST和ToxCast對主要環(huán)境化學品進行毒性預(yù)測,如急性毒性、致癌性、生殖毒性和其他對水生環(huán)境的毒性。測試毒性包括FMLC50、DMLC50、TPIGC50、ORLD50、DT、AM、ToxPi。作者使用的數(shù)據(jù)庫中六個不同終點的毒性是實驗測定和計算機預(yù)測毒性的整合,整體的預(yù)測準確度在0.62-0.79。
研究結(jié)果
候選化合物列表的數(shù)據(jù)預(yù)處理
作者根據(jù)圖2所示的研究思路從預(yù)加標污泥水樣品中發(fā)現(xiàn)了137個與對照組有顯著差異的峰,并進行了多變量分析(圖2D)。使用QI中的EPA ToxCast、EPA DSSTox、NIST、NIST Spectral、NIST MS/MS、MoNA數(shù)據(jù)庫進行匹配分析,不同數(shù)據(jù)庫匹配到的候選化合物數(shù)量不一致,未匹配到的光譜則用計算機預(yù)測MS2光譜(圖2E-2F)。匹配時根據(jù)質(zhì)量誤差、同位素分布相似性和碎裂譜圖評分,按照一定的比例加權(quán)求得最終得分。作者建立了一套自動化工作流程整合來自不同數(shù)據(jù)庫的所有候選化合物,對同一峰值具有相同 SMILES 的候選化合物被整合到最終列表中。實現(xiàn)了最初的 6982 個候選化合物被縮減為 4185個,以進一步確定優(yōu)先順序。
用隨機森林模型進行RT預(yù)測
基于之前研究的模型,通過隨機森林算法進行特征選擇建立QSRR 的線性回歸模型,在這項研究中,作者進一步應(yīng)用隨機森林算法來預(yù)測保留時間,開發(fā)了一個用于特征選擇和超參數(shù)優(yōu)化的自動化工作流程。選擇了 146 種 FDA 藥物進行模型訓練,以預(yù)測未知化合物在反相 LC 系統(tǒng)中的保留時間。預(yù)測模型在測試數(shù)據(jù)中的線性相關(guān)性 R2 = 0.86 (p = 2.4e-11),平均絕對誤差 (MAE) 為 1.00 分鐘(圖3A)。進一步對 28 種化學標準品的實驗保留時間進行評估,預(yù)測顯示出良好的準確性,中位預(yù)測誤差為 1.11 分鐘,平均預(yù)測誤差為1.14 分鐘(圖 3B)。
通過 RT 預(yù)測和 MS/MS 光譜匹配確定優(yōu)先級
在這項研究中,作者通過 MS/MS 光譜匹配分數(shù)和保留時間預(yù)測,提出了一個將可能的候選化合物初步劃分為 4 個 RT-MS/MS 級別的優(yōu)先級程序。對于保留時間預(yù)測,作者將閾值ΔRT定義為實驗保留時間和預(yù)測保留時間之間的差異,由模型的最大預(yù)測誤差決定,在該研究中為1.0分鐘。MS光譜匹配的得分范圍從0到60,將得分閾值設(shè)置為30、35和40,從而將候選化合物分為四類,合并的分類級別見圖3C。如圖3B所示,通過文庫搜索RT=9.0分鐘的峰值來獲得四個候選化合物,通過計算ΔRT和MS光譜匹配得分,a、b、c、d四個候選化合物分別被歸為了RT-MS/MS 1級、2級、3級、4級。作者將這種優(yōu)先級排序策略應(yīng)用于污泥水樣本的候選列表,之前的4185個候選化合物,其中1821、1382、728、253個候選化合物分別在RT-MS/MS 1級、2級、3級、4級,還有1個候選化合物不可用于RT預(yù)測。

圖3保留時間 (RT) 預(yù)測模型開發(fā)流程
使用六個毒性終點和ToxPi評分進行毒性優(yōu)先級排序
為提高有毒化學品的覆蓋率,作者引入了6個關(guān)鍵毒性終點和基于ToxCast數(shù)據(jù)庫的ToxPi評分在R程序中進行應(yīng)用。用戶可以根據(jù)其主要風險問題從任何毒理學終點提取數(shù)據(jù)。ToxCast 數(shù)據(jù)庫中有 8845 種化合物具有可用的毒性。通過毒性排序,作者將候選化合物分為 3 個毒性水平:1 級至 3 級(圖4B)。為了演示作者根據(jù)可用的毒性終點 ORLD50對 2779個候選化合物進行了優(yōu)先排序,ORLD50 的計算結(jié)果如圖 4B 所示,大多數(shù)候選化合物在此毒性終點顯示中等毒性,范圍從1到5.06。為了驗證,作者添加了28個化學標準品,包括不同毒性的農(nóng)藥,并在候選名單中發(fā)現(xiàn)了21種添加的化學物質(zhì)。敵敵畏和氰草津被列為1級毒性,其余加標的化合物被歸類為2級毒性(圖4C)。

圖4毒性水平及毒性水平排序示例
結(jié)合毒性水平和RT-MS/MS水平確定最終優(yōu)先順序
作者進一步將毒性水平與RT-MS/MS水平相結(jié)合,以提供最終的候選優(yōu)先順序列表。其目標是突出候選化合物中的有毒化合物。根據(jù)作者的算法候選化合物被劃分為5級:1級到5級(圖5A),例如1級候選化合物具有毒性水平1級和RT-MS/MS水平1級;谧髡叩乃惴ǎ卸竞蜻x化合物可以根據(jù)其識別置信度進行優(yōu)先排序,以便進一步驗證。
作者以ORLD50終點毒性為例,根據(jù)RT-MS/MS水平和毒性水平,從6982個候選化合物的原始列表中對2779個候選化合物進行了優(yōu)先排序。另增加了28個化學標準,根據(jù)工作流程對其中的21個進行了優(yōu)先排序。通過結(jié)合毒性水平和RT-MS/MS水平,敵敵畏和氰草津被列為1級候選化合物,其他化學品分別被列為3級(N=11)、4級(N=9)和5級(N=1)候選化合物(圖5B)。
為進一步詳細地演示優(yōu)先排序工作流程,以m/z=238.0851、RT=7.6min為例演示候選化合物的優(yōu)先排序(圖5C)。在6982個候選化合物原始列表中,保留了具有可用碎片化分數(shù)和預(yù)測保留時間的139個候選化合物。進一步計算了毒性水平和RT-MS/MS水平,排除沒有有效毒性和保留時間的候選化合物,對139個候選化合物中的78個進行了5級優(yōu)先排序,其中1級、2級、3級、4級、5級分別有1個、2個、3個、36個、36個。鮮綠青霉素和3-氰基-4-聯(lián)苯-乙酸因為高毒性(Tox1級)分別被列為2級和3級候選化合物,作者列舉了排序最優(yōu)先的5個候選化合物(圖5C)。用戶可以根據(jù)實際情況重新定義毒性分類的閾值,只要更適合進行化學優(yōu)先排序。

圖5毒性水平結(jié)合RT-MS/MS水平確定最終優(yōu)先順序示例
全文總結(jié)
這項研究為非靶向分析(NTA)中已知或未知化合物的鑒定提供了一種基于毒性的優(yōu)先排序工作流程,可以極大地縮小數(shù)百至數(shù)千個候選化合物匹配范圍。作者對非靶向數(shù)據(jù)預(yù)處理后通過隨機森林模型預(yù)測化合物的保留時間,并通過結(jié)合保留時間預(yù)測、譜庫搜索進行的碎片光譜匹配來提供候選化合物的優(yōu)先列表;赒SRR的保留時間預(yù)測在MS/MS光譜匹配分數(shù)之上可以顯著減少候選化合物的數(shù)量,再結(jié)合化學毒性評估能夠?qū)τ卸净衔镞M行全面的優(yōu)先排序。