從《物種起源》(1859) 到「新冠病毒起源」(2019) ——演化樹初探
「系統發生樹」,英文 phylogenetic tree,是一個如何翻譯都翻譯不好的專業詞彙。Phylo- 是指「種族」、genetic 是「基因」、「起源」。我姑且用「演化樹」(evolutionary tree)代替之。演化樹的用處,是以樹狀圖表來表達不同生物(或基因、羣體、個體)的演化關係。大家最有印象的演化樹代表,可能是達爾文於 1859 年《物種起源》所繪的「生命之樹」(tree of life)。
時至今日,演化樹仍然在科學界無處不在,更因近期新冠病毒肆略全球,我們或多或少都在新聞報章看見這類演化樹。我在大學教的科目恰恰是「系統發生學」,近日因英國停擺而賦閒在家,我決定將教學筆記集結成文,粗淺地介紹「演化樹」如何與我們悉悉相關。我們如何理解演化樹?演化樹如何判斷生物起源?演化樹在對抗今次疫情起了甚麼作用?
「我們從猩猩演化而來」是錯誤的
這句話常被濫用來解釋演化論,可惜是錯誤的。現代演化學家並不認為演化是線性的,我們並非猩猩的後代,沒有一隻遠古猩猩誕下了人類。正確的描述,是猩猩與我們「同源」或「有共同祖先」(share a common ancestor)。這「祖先」在學術上稱為「黑猩猩—人類最後共同祖先」(Chimpanzee-human last common ancestor, CHLCA),它既非猩猩、亦非人類。演化論是如此解釋的:隨著時間流動,生物個體將會不斷自然變異。即使本來同種的生物,有一部分的群體變得與其他羣體非常不同,以至兩個群體間再無交配的可能,則區分為兩個物種。
在演化樹上,人類和黑猩猩稱為「旁枝」(sister branch),旁枝為建構演化樹的基礎,類比於樹的分枝。而共同祖先則稱為「根」(root),根是所有旁支的起源。
尋找物種起源,就等於尋找物種在演化樹的根。
尋找物種起源
要尋找物種起源,我們要向自然學家學習,觀察物種的特徵。以下圖的簡化版「脊椎動物」演化為例,只有靈長類動物和鼠及兔類有「乳腺」,因此它們是演化過程上最相近的,在演化樹上屬於「旁枝」。然後,爬行類和恐龍及鳥類均有「羊膜」但無乳腺,因此它們也是旁枝。兩棲類比起兩組均不相近,所以自己獨自一枝。最後,魚類與其他脊椎動物均不同,因此又是自己獨自一枝。
我們現在只知道這些脊椎動物的演化關係,等於知道這棵「演化樹」是如何分枝,但我們仍然未找出這棵演化樹的「根」。我們無從知道哪一種動物最古老、最接近脊椎動物的起源。
我們只要找到一個比起這些脊椎動物更古老、更不像的生物,例如海星這一類非脊椎動物,把它放置於演化樹上,就可以找到脊椎動物的根。在這個例子裡,海星稱為「外群」(outgroup),它被用來為內群(ingroup)定根。於是,我們便推測得出魚類最為古老、最接近脊椎動物的起源。
尋找新冠病毒起源
觀察病毒比起觀察動物艱難得多,畢竟病毒太相似,大部分特徵都要在極高倍數的顯微鏡下才可看見,我們無法有效地比較它們的演化關係。如果是同一種病毒(例如新冠病毒),它們在顯微鏡下其實也不會有甚麼分別。我們只可以從它們的「基因」入手。
由一月起,科學家便日以繼夜地為每株病毒定序(sequencing),判定它們的基因序列。你可能知道人類有 23 對染色體(遺傳分子),病毒則簡單得多,只有 1 條遺傳分子(DNA 或 RNA)。這條 DNA(或 RNA)是由一串核鹼基(nucleobase)組成,DNA 的核鹼基有四種:A、T、C 及 G(RNA 的核鹼基以 U 取代 T)。
新冠病毒(SARS-CoV-2)的遺傳分子長度約為 30,000 鹼基,這是其中一個樣本(MN908947)序列的首 1000 位:
「ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTCGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTTGTCCCTGGTTTCAACGAGAAAACACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAGACTCCGTGGAGGAGGTCTTATCAGAGGCACGTCAACATCTTAAAGATGGCACTTGTGGCTTAGTAGAAGTTGAAAAAGGCGTTTTGCCTCAACTTGAACAGCCCTATGTGTTCATCAAACGTTCGGATGCTCGAACTGCACCTCATGGTCATGTTATGGTTGAGCTGGTAGCAGAACTCGAAGGCATTCAGTACGGTCGTAGTGGTGAGACACTTGGTGTCCTTGTCCCTCATGTGGGCGAAATACCAGTGGCTTACCGCAAGGTTCTTCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAACTTCTGTGGCCCTGATGGCTACCCTCTTGAGTGCATTAAAGACCTTCTAGCACGTGCTGGTAAAGCTTCATGCACTTTGTCCGAACAACTGGACTTTATTGACACTAAGAGGGGTGTATACTGCTGCCGTGAACATGAGCATGAAATTGCTTGGTACACGGAACGTTCT…」(尚餘 28,901 位)。
這些基因密碼就如「脊椎動物」的特徵一樣,帶有演化的資訊。以下是簡化了的病毒演化樹例子,病毒 E、F 有著相同的基因序列,因此它們一組;病毒 C、D 有著相同的基因序列,因此它們一組;病毒 C-D 組和 E-F 組相近(在序列第三位一樣是 A),因此 (C—D)—(E—F):病毒 B 自己一組;病毒 A 自己一組:
同樣地,我們仍未找到這棵演化樹的根,未能確定新冠病毒的起源。你可能會問,可以找一種與新冠病毒相近的病毒來作為「外群」定根嗎?
現在已知最接近的病毒為以中菊頭蝠(Rhinolophus affinis)作宿主的冠狀病毒 RaTG13(基因序列相似度為 96.3%)。如果我們粗略按照比例來繪畫這棵演化樹,分枝越長代表越多基因變異的話,演化樹會變成這個樣子:
…… 好像有點奇怪。
事實上,當長枝發生於外群時(亦即外群與內群太不相似),外群的演化距離與內群的演化距離太不合比例,內群的基因變異變得不顯著,在運算過程中內群的分枝會出現更多的隨機錯誤,這個現象稱為「長枝吸引效應」(long branch attraction)。這是一個不符合理論的比喻,但最「人性化」容易理解:如果我請你把一堆蘋果分類好,你會認真的看牌子、看標籤;但如果我請你把一堆水果分類的話,你只會想到要把蘋果、香蕉、奇異果等分開,你不會太注意到要把蘋果再細分。
日前劍橋大學發表的論文正正犯了這個錯誤。在這個錯誤下,任何病毒株都有可能錯被放置於上圖病毒 A 的位置,錯被當作最接近病毒起源。
造成長枝效應的原因,不外乎是缺少中間的分枝:當中間分枝越多,長枝效應將越弱,外群定根越準確。這些中間分枝是未知的新冠病毒,很有可能寄生在蝙蝠至人類之間未知的中間宿主上,在其中一個中間宿主內,病毒演變至可感染人類。
但無論如何,以我們現今的數據,我們無法用外群來為新冠病毒定根,這是否意味著我們對新冠病毒的起源仍無頭緒?
不,我們還有另外一種尋找物種起源的方法。
基因變異是一個時鐘
基因變異速度是有辦法估算出來的,尤其當環境沒有太大的變化,自然選擇(natural selection)不強的時候,基因變異的速度是穩定的。如果我們知道每株病毒的取樣日期,我們可用現在的時間校準這棵演化樹(tip calibration)。請想像有一個時鐘指向現在,這個時鐘名為分子時鐘(molecular clock)。
新冠病毒大約以幾何級數繁殖,在一個已校准時間的演化樹模型上,看來會像這樣:
在這個模型裡,枝的長度由短慢慢增長,代表基因變異越來越快,病毒增長的速度也在加快。同時,當所有病毒都有一個穩定的分子時鐘,亦即在相同的時間裡,基因變異量相等,根—端的距離亦相等。
那麼理論上,我們把時鐘往回撥,將會有一過去的時間點,枝的長度變為 0(根—端距離也會變為 0),這就是根的位置。
因此,分子時鐘校準了的演化樹都是已定根的。
這個模型可以推測出哪株病毒最接近根,亦即最接近病毒起源。因為有了時間這個維度,這個模型也會預測出病毒起源的時間。
更重要的是,因為有時間、病毒增長速度等變量,演化模型將可以預測未來病毒數量的趨勢。
新冠病毒的起源和演化路徑
Nextstrain(https://nextstrain.org,附有中文及英文版)是一個實時病毒演化監察平台,搜集了全球科學界所發現的病毒基因序列。Nextstrain 每星期發表研究報告更新現時科學界對新冠病毒的認知,根據美國華盛頓大學流行病學副教授特雷弗.貝德福德(Trevor Bedford)領導發表的報告(4月10日),團隊當時分析了當時已有的 3,160 個基因圖譜,加上分子時鐘(molecular clock),結論出「所有流行中的新冠病毒分株的共同祖先最有可能出現於十一月下旬至十二月上旬的中國武漢。這項發現與中國與亞洲新冠病毒大流行第一個月的情況吻合。」
武漢搜集到的病毒基因變異不多,加上我們已知的其他傳染病學資訊(例如傳播鏈追蹤),科學家認為武漢的病毒樣本最接近演化樹的根,亦即病毒起源。
報告亦提出新冠病毒於全球演化及傳播的路徑:隨著新冠病毒於亞洲爆發,病毒由一至二月開始散播至北美、歐洲及大洋洲,但並未引起大流行及注意,二月至三月於北美及歐洲的病毒開始大量傳播,並於全球大流行,於四月開始開始傳播回亞洲。
報告(https://nextstrain.org/narratives/ncov/sit-rep/zh/2020-04-10)有最詳盡的演化樹,閱畢《演化樹初探》,你應該可以理解報告中新冠病毒的演化路徑。
(文章與圖片均轉載自編輯的個人博客。)