實驗室應(yīng)確定原始測序數(shù)據(jù)及 FASTQ 文件在服務(wù)器上存儲的位置,并明確具備唯一標(biāo)識的統(tǒng)一命名,便于數(shù)據(jù)調(diào)用與快速分類查找。文件命名建議包含數(shù)據(jù)檢測/分析日期、檢測實驗室名稱、標(biāo)本類型、測序批次、唯一的標(biāo)本編碼等。命名規(guī)則一旦確定不得隨意改動。
實驗室可通過 FASTQC[19] 和 MultiQC[20] 等軟件查看測序數(shù)據(jù)質(zhì)量、總數(shù)據(jù)量、堿基質(zhì)量值(Q20 和 Q30)等,結(jié)合測序芯片泳道上生成的簇密度設(shè)置質(zhì)控點(如簇密度是否偏離有效范圍,堿基識別質(zhì)量值≥Q30 的數(shù)據(jù)比例是否偏低)判斷本批次數(shù)據(jù)能否用于后續(xù)分析。數(shù)據(jù)過濾規(guī)則可根據(jù)實驗室對 mNGS 檢測的敏感性和特異性需求進行調(diào)整,建議設(shè)置 Q30 堿基數(shù)量占比>75%、有效序列長度不小于 50bp、含 N 堿基比例小于 10% 等參數(shù)閾值。
為了提高微生物數(shù)據(jù)的分析時效性,需要去除測序數(shù)據(jù)中的宿主序列,通常方法是把比對到人類基因組的序列進行過濾。真菌和寄生蟲與人類的基因組序列有一定的同源性,在過濾宿主序列的過程中需要評估運行時間、去除效率與非特異性去除(非人源序列而被錯誤過濾)的序列比例。
物種注釋是病原宏基因組檢測最核心的內(nèi)容之一,主要是將通過質(zhì)量控制的非宿主序列與微生物參考數(shù)據(jù)庫比對,或者經(jīng)過從頭組裝成 contigs/scaffolds 后再比對到微生物參考數(shù)據(jù)庫,確定在特定序列相似性閾值(如≥97%)下的物種分類級別。物種注釋的準(zhǔn)確性取決于所選注釋工具的敏感性和特異性、算法閾值的合理性、參考數(shù)據(jù)庫的完整性及其納入微生物基因組的準(zhǔn)確性 [12]。目前可用的注釋工具分為三類:
(1)DNA-to-DNA 比對工具;
(2)DNA-to-Protein 比對工具;
(3)基于特征標(biāo)記基因的比對工具。有研究表明,利用相同的模擬數(shù)據(jù)集測試不同的宏基因組學(xué)分類工具,發(fā)現(xiàn)不同的分類工具識別的物種數(shù)量可能相差 3 個數(shù)量級以上 [21]。在 mNGS 中,DNA-to-DNA 工具往往比 DNA-to-Protein 工具能夠更好地進行物種分類 [22],但 DNA-to-Protein 工具在識別新發(fā)和高度可變的基因序列時敏感性更高 [23]。而在以注重物種豐度的微生物組學(xué)分析中,則推薦使用基于特征標(biāo)記基因的比對工具 [24]。
總之,實驗室在選擇物種注釋工具時,應(yīng)基于檢測的預(yù)期用途,從運行速度、準(zhǔn)確率、精確率、召回率等維度評估性能 [17]。實驗室可使用近緣物種的基因序列對分析軟件的物種注釋功能進行評估,另外在數(shù)據(jù)庫或分析算法有變更時,以及定期對本實驗室的 mNGS 物種/基因注釋功能進行評估。
微生物參考數(shù)據(jù)庫的選擇顯著影響物種注釋分類的結(jié)果 [25,26]?!逗昊蚪M測序病原微生物檢測生物信息學(xué)分析規(guī)范化管理專家共識》[17] 中對 mNGS 常用微生物數(shù)據(jù)庫的特征有較為詳細(xì)的描述。目前沒有任何一個公共數(shù)據(jù)庫能夠包含所有的潛在人類病原體的基因組信息(假陰性風(fēng)險),且數(shù)據(jù)庫中不可避免地存在一些注釋錯誤或污染的序列(假陽性風(fēng)險)[27]。因此在構(gòu)建、使用和管理這類數(shù)據(jù)庫時需要重點關(guān)注以下問題:
(1)充分評估數(shù)據(jù)庫的全面性以及納入物種在分類學(xué)上的代表性。同一微生物,往往具有遺傳差異的不同亞型或株,在選擇基因組時,應(yīng)該考慮到微生物的遺傳多樣性,盡可能多地納入不同亞型或株的高質(zhì)量基因組;
(2)無論所選參考基因組的來源如何,實驗室都需要通過重測序或其他技術(shù)手段確認(rèn)其注釋的準(zhǔn)確性,序列的完整性,避免納入錯誤注釋、命名錯誤或代表性不足的微生物序列;
(3)病原體(尤其是 RNA 病毒)在自然狀態(tài)下是不斷發(fā)生變異的,所以需要及時(或定期)對參考數(shù)據(jù)庫中的基因組信息進行更新及驗證 [28,29],更新的頻率取決于實驗室或臨床的需求,以及序列在公共數(shù)據(jù)庫中的上傳或更新時間 [28];發(fā)生可能影響結(jié)果的數(shù)據(jù)庫修改、替換及更新等活動均需要重新進行評估;建議實驗室每年對微生物數(shù)據(jù)庫進行審核,必要時隨時進行更新。但是對于使用本地化服務(wù)器的實驗室,構(gòu)建的數(shù)據(jù)庫大小需要權(quán)衡服務(wù)器的計算能力以及報告的時效性要求。
mNGS 檢測到的微生物常以讀長數(shù)作為結(jié)果,但它受測序量、標(biāo)本質(zhì)量等因素的影響,并且同張芯片不同文庫分配的下機數(shù)據(jù)量會有波動,所以有必要對讀長進行歸一化處理 [30]。建議將每百萬測序讀長中匹配到某一微生物基因組的特異讀長(reads per million,RPM)作為歸一化指標(biāo) [30]。如果希望比較不同微生物在同一文庫中的讀長,則還需考慮微生物基因組大小不同帶來的差異(理論上,在相同條件下,基因組越長,測得的讀長越多),建議通過計算每百萬測序量下每一千個堿基的基因組長度的歸一化讀長來消除這種影響 [28]。需要注意,由于 mNGS 檢測原理不同于 qPCR,RPM 不能作為微生物核酸的定量指標(biāo)。
由于缺乏標(biāo)準(zhǔn)的 mNGS 生物信息學(xué)分析方案,各實驗室自建分析流程內(nèi)部使用的分析軟件與數(shù)據(jù)庫處在不斷更新、確認(rèn)及完善的動態(tài)過程中。為了保證每批次臨床標(biāo)本結(jié)果的可溯源性及可重復(fù)性,實驗室需要明確每一次測試所使用的軟件及數(shù)據(jù)庫的版本,建議在報告單中體現(xiàn),至少應(yīng)包括分析日期、軟件名稱和版本號、對每個組成工具及算法的用戶自定義參數(shù)和系統(tǒng)默認(rèn)值等 [28],可使用版本管理工具如 Conda 完成 [31]。此外,可使用流程管理工具如 Snakemake 和 Nextflow 等對整個工具集進行版本控制。