許多病毒無法在實驗室裡培養,很難進行深入的研究(圖:Sebastian Kaulitzki/SPL/Getty)

科學家利用人工智慧發現近 6000 種未知病毒。近日,在美國能源部(Department of Energy)舉辦的會議中,研究員展示了一種新的機器學習工具,可探索地球上無數未知的病毒。

利用機器學習發現新病毒

雖然病毒影響著我們的日常生活,例如我們的健康,或垃圾的分解,不過由於科學家無法在實驗室中培養大多數的病毒,而且病毒的基因體很小、進化快速,所以科學家一直以來都難以識別病毒的基因序列。

近年來,研究人員嘗試從不同環境的樣本進行 DNA 定序,希望能尋找出未知的病毒。為了識別存在的微生物,研究人員搜尋已知病毒和細菌的基因特徵,就像文書處理軟體的「尋找」功能,找出文件中的特定文字一樣。不過因為病毒學家無法尋找未知的東西,所以這種方法往往失敗。

不過,機器學習能解決這個問題,這種方法能在大量的訊息中找出有意義的規律。機器學習演算法能分析資料,從中學習,然後自主分類資訊。

南加州大學(University of Southern California)的計算生物學家任傑博士(Jie Ren)表示:「以往,人們沒有研究病毒的好方法,但現在我們終於有一個工具可以尋找它們。」

訓練絲狀噬菌體科病毒家族

最新的研究中,美國能源部聯合基因體研究所(Joint Genome Institute,簡稱 JGI)的計算生物學家魯林博士(Simon Roux),訓練電腦從一個不常見的絲狀噬菌體科(Inoviridae)病毒家族,去識別病毒的基因序列。這些病毒生活在細菌中,並改變宿主的行為,例如,它們會讓霍亂弧菌的毒性更強。在魯林博士開始研究前,估計只發現了不到 100 個品種。

魯林博士提出了一種機器學習演算法,這種演算法包含兩個資料集。一個資料集含有 805 個絲狀噬菌體科基因序列,另一個則含有大約 2000 個來自細菌和其他病毒的基因序列,讓演算法能發現區別的方法。

接著,魯林博士把龐大的總體基因體資料集提供給模型。電腦找到了超過 10000 個絲狀噬菌體科基因體,並將其聚集成不同物種的集群。魯林博士表示,其中一些集群之間的遺傳變異非常大,所以絲狀噬菌體科可能是很多家族組成的。

發現提升堆肥處理效率的新病毒

在另一項研究中,巴西聖保羅大學(University of São Paulo)的生物資訊學家戴維·阿姆加藤博士( Deyvid Amgarten),利用機器學習在城市動物園尋找堆肥中的病毒。他撰寫演算法來搜尋病毒基因體的一些顯著特徵,例如特定長度的 DNA 鏈上的基因密度。

阿姆加藤博士表示,經過訓練後,電腦找到了幾個似乎是新的基因體。最後一步是了解這些病毒產生的蛋白質,看看其中一些蛋白質能否加快有機物質的分解速度,並希望能提升堆肥處理的效率。

發現病患身上的新病毒

阿姆加藤博士從任傑團隊開發的機器學習工具 VirFinder 得到線索。VirFinder 可尋找 DNA 鏈上的鹼基配對,例如 AT 或 CG。任傑博士將這種演算法應用在健康者和肝硬化患者糞便的總體基因體樣本上。電腦對樣本中的病毒進行分類之後,研究團隊注意到,與肝硬化患者相比,正常人的某些特定類型基因體更多或更少,這表示某些病毒可能導致這種疾病。

任傑博士的研究相當引人注目。長久以來,醫學生物研究人員一直希望了解,病毒是否會導致一些難以發現病因的疾病,例如慢性疲勞症候群(又稱肌痛性腦脊髓炎)和發炎性腸道疾病。傑克森實驗室(Jackson Laboratory)免疫學家尤努馬茲教授(Derya Unutmaz)推測,病毒可能會引發破壞性發炎反應,或者可能會改變人類微生物群系(microbiome)中細菌的行為,進而破壞新陳代謝和免疫系統。

尤努馬茲教授表示,透過機器學習,研究人員可能會發現隱藏在病患身上的病毒。此外,由於機器學習可在龐大的資料集中找出規律,這種方法可以將病毒資料與細菌進行關聯,並將病症資料與蛋白質變化進行關聯。尤努馬茲教授表示:「機器學習可以發現我們從未想到的知識。」

 

參考資料:

  1. Amy Maxmen (March 2018). Machine learning spots treasure trove of elusive viruses, Nature
  2. Roux S, et al. (2015) Viral dark matter and virus-host interactions resolved from publically available microbial genomes. Elife. 4:e08490.
  3. Deyvid Amgarten, et al. (May 2017). Three novel Pseudomonas phages isolated from composting provide insights into the evolution and diversity of tailed phages, BMC Genomics. 2017 May 4;18(1):346. doi: 10.1186/s12864-017-3729-z.
  4. Jie Ren, Nathan A. Ahlgren, Yang Young Lu, Jed A. Fuhrman and Fengzhu Sun (2017). VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data, Microbiome 5:69
You May Also Like

科學家將人類皮膚細胞轉化為腦細胞,研究阿茲海默症

阿茲海默症(Alzheimer’s disease,AD)是一種神經系統疾病,在老年人中…

物理學的新理論能夠簡單的描述宇宙:物質的組成要素是由能量碎片所構成

過去認為的物質構成五大要素 既然是物質構成了宇宙,那又是什麼構成了物質呢?這個問題對物理學家來說,是…

火星的衛星居然是過去的火星環演變而來的

圖片來源:tam.museum 火星曾經與土星一樣都擁有美麗的光環 火星是太陽系八大行星的第四顆行星…

為何微軟要投資電商公司?領投印尼電商獨角獸Bukalapak 2.34億美元

印尼電子商務公司Bukalapak在由微軟、新加坡主權財富基金GIC和當地媒體集團Emtek領投的一輪融資中籌集了2.34億美元的資金。究竟軟體業的微軟為何要投資一家印尼的電商公司呢?

生物學家解出鴨嘴獸的完整基因組序列,而這些基因部份源自鳥類、爬蟲類及哺乳類

長了個鴨嘴的鴨嘴獸(platypus)真的是地球上最奇怪的生物之一。最近,鴨嘴獸的基因組的第一份完整…

蓋洛普全球情緒調查:負面情緒指數創新高,人們變得更悲傷與憤怒

民調機構蓋洛普(Gallup)調查 143 個國家超過 15 萬人後發現,去年全球民眾在感受到悲傷、…