谷歌AlphaFold破譯“上帝密碼”,解答困擾人類50年難題


  市場(chǎng)動(dòng)態(tài)     |      2022-02-21
對(duì)普通大眾來(lái)說(shuō),谷歌AlphaFold似曾相識(shí),而這份相識(shí)來(lái)源于它的孿生兄弟--打敗圍棋高手的AlphaGo。AlphaFold隸屬于谷歌旗下的人工智能(Artificial Intelligence,AI)公司Deep Mind。Deep Mind聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis表示:“Deep Mind的終極愿景是構(gòu)建通用人工智能,用它來(lái)幫助我們更好地了解我們周圍的世界,加快科學(xué)發(fā)現(xiàn)的步伐?!蹦壳?,Deep Mind擁有員工1000名左右,成立以來(lái)幾無(wú)營(yíng)收,儼然成為谷歌旗下燒錢的公司。然而,Deep Mind已經(jīng)與Facebook AI Research、微軟和Open AI等公司一起成為全球AI競(jìng)賽的領(lǐng)導(dǎo)者?;贏lphaFold,谷歌又一次“搞事情”,將其人工智能應(yīng)用于人類科學(xué)中棘手的領(lǐng)域-生物學(xué)。
2020年,在第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根據(jù)基因序列預(yù)測(cè)了生命基本分子--蛋白質(zhì)的三維結(jié)構(gòu),取得了中位分?jǐn)?shù)為92.4(滿分100分),比第二名高25分,打敗了所有競(jìng)爭(zhēng)對(duì)手。甚至可以分析X-射線晶體學(xué)很難解決的楔入細(xì)胞膜中的蛋白質(zhì)結(jié)構(gòu),這是許多人類疾病的核心。CASP發(fā)起人之一穆爾特更是感嘆:“我從未想過(guò)在我的有生之年可以見證這一偉大?!?020年11月30日,Deep Mind宣布:“AlphaFold2成功解開了一個(gè)困擾人類長(zhǎng)達(dá)50年之久的生物學(xué)難題--蛋白質(zhì)折疊問(wèn)題。”2021年7月15日,關(guān)于AlphaFold2的論文在Nature上發(fā)表[1],并在Github上將AlphaFold2的代碼開源[2],以及上線可搜索的物種蛋白質(zhì)組數(shù)據(jù)庫(kù)[3]。中國(guó)科學(xué)院院士施一公認(rèn)為:AlphaFold2是人工智能對(duì)科學(xué)領(lǐng)域較大的一次貢獻(xiàn),也是人類在21世紀(jì)取得的較重要的科學(xué)突破之一。
AlphaFold2的論文在Nature上發(fā)表
研究成果AlphaFold2的論文在Nature上發(fā)表(圖源:Nature
AlphaFold2厲害在哪里?顛覆醫(yī)學(xué)的技術(shù)突破
蛋白質(zhì)是生物體內(nèi)一切功能的執(zhí)行者,我們身體內(nèi)的任何功能,從催化化學(xué)反應(yīng)到抵御外來(lái)侵略都是蛋白質(zhì)作用的結(jié)果;我們能行走、運(yùn)動(dòng)靠的是肌肉中肌動(dòng)蛋白的工作;我們身體的骨架是由蛋白質(zhì)骨膠原加強(qiáng)的;細(xì)胞的正常分裂或癌變也是通過(guò)蛋白質(zhì)調(diào)節(jié)控制的。具有完整一級(jí)結(jié)構(gòu)的多肽或蛋白質(zhì),只有當(dāng)其折疊形成正確的三維空間結(jié)構(gòu)才可能具有正常的生物學(xué)功能。如果這些生物大分子的折疊在體內(nèi)發(fā)生了故障,形成錯(cuò)誤的空間結(jié)構(gòu),不但將喪失其生物學(xué)功能,還會(huì)引起各種疾病,如:肺氣腫、癌癥、老年癡呆、帕金森氏癥等。
蛋白質(zhì)一般是由幾十到幾百個(gè)氨基酸脫水縮合組成的多肽鏈,蛋白質(zhì)氨基酸有22種,常見的有20種。在肽鏈上一個(gè)具體的位置為什么出現(xiàn)特定的氨基酸而不是別的氨基酸,以及為什么與這一氨基酸前后相連的氨基酸也是固定的?這與分子生物學(xué)中心法則密切相關(guān):“DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)。”具體來(lái)講,DNA上儲(chǔ)存的遺傳信息,也就是堿基序列首先轉(zhuǎn)錄到RNA上,再由RNA上的堿基序列編碼特定的氨基酸序列,以此構(gòu)成蛋白質(zhì)的物質(zhì)基礎(chǔ)。后來(lái)人們發(fā)現(xiàn)三個(gè)堿基形成一個(gè)密碼子,對(duì)應(yīng)編碼某一具體的氨基酸,密碼子在基因上的位置決定了氨基酸在肽鏈上的位置,形成了蛋白質(zhì)的一級(jí)結(jié)構(gòu)。但是,此時(shí)的線性結(jié)構(gòu)還必須折疊形成天然三維結(jié)構(gòu)之后才能具備承擔(dān)活體生物所需的獨(dú)特功能。然而,50多年來(lái)科學(xué)家對(duì)蛋白質(zhì)如何從一維結(jié)構(gòu)快速、準(zhǔn)確地折疊成具有生物功能的天然三維結(jié)構(gòu)的認(rèn)知依然非常有限,這就是生物學(xué)領(lǐng)域著名的蛋白質(zhì)折疊難題。
分子生物學(xué)中心法則:DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)
分子生物學(xué)中心法則:DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)(圖源:[4])
蛋白質(zhì)就像小巧精致的生物機(jī)器,而機(jī)器的結(jié)構(gòu)決定了它的功能,因此揭示蛋白質(zhì)的結(jié)構(gòu)可以幫助我們理解蛋白質(zhì)的功能。如果我們清楚蛋白質(zhì)的結(jié)構(gòu),就能對(duì)其功能展開有根據(jù)的猜測(cè)。通過(guò)繪制大量蛋白質(zhì)結(jié)構(gòu)圖,我們可以解讀生命的生物學(xué)原理,并找到解決問(wèn)題的根本方法。
目前開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑為借助實(shí)驗(yàn)儀器解析蛋白質(zhì)結(jié)構(gòu)如:X-射線衍射、核磁共振技術(shù)、冷凍電鏡技術(shù)以及智能計(jì)算預(yù)測(cè)。諾貝爾化學(xué)獎(jiǎng)得主Christian Anfinsen,在1972年曾提出,基于蛋白質(zhì)的1D氨基酸序列可計(jì)算并預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)。然而,3D結(jié)構(gòu)在形成之前會(huì)有數(shù)以億計(jì)的折疊方式。有數(shù)據(jù)顯示,一個(gè)典型的蛋白質(zhì)大約有10300種可能的構(gòu)型,如果用實(shí)驗(yàn)方法來(lái)計(jì)算所有可能的構(gòu)型,可能花費(fèi)的時(shí)間比宇宙都要長(zhǎng)。通過(guò)實(shí)驗(yàn)方法確定蛋白質(zhì)結(jié)構(gòu)是一項(xiàng)耗時(shí)且艱苦的工作,而AlphaFold2證明了人工智能可以在短短幾分鐘內(nèi)準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),并且精確到原子級(jí)。
表1. 開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑
開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑
開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑,數(shù)據(jù)來(lái)源:醫(yī)學(xué)與哲學(xué)雜志[5];
以新冠疫苗為例:它的研發(fā)基礎(chǔ)全在于我們繪制出了病毒表面用于入侵人體的細(xì)胞刺突蛋白的結(jié)構(gòu)圖。不妨把刺突蛋白的三維結(jié)構(gòu)看作是一把鎖,倘若我們能描繪出鎖的形狀,自然便可設(shè)計(jì)出鑰匙,也就是藥物或疫苗,來(lái)反制病毒。蛋白質(zhì)的三維折疊形狀以其一維的氨基酸序列為基礎(chǔ)。如果AI擅長(zhǎng)發(fā)現(xiàn)那些復(fù)雜氨基酸序列構(gòu)建立體形狀的模式(人類在這方面的能力較弱),那么它就有望替代那些成本極高的實(shí)驗(yàn)室技術(shù)。
從實(shí)用性角度來(lái)看,AlphaFold2的成功為我們攻克諸多重大疾病提供了助力。我們?cè)O(shè)計(jì)的幾乎所有的藥物都作用于蛋白質(zhì),如鑰匙開鎖般精確匹配,而此過(guò)程的第一步是確定哪把鑰匙開哪把鎖,用更專業(yè)的話說(shuō),就是尋找藥物靶標(biāo),即弄清楚藥物分子作用與何種蛋白結(jié)合。如果我們擁有可解碼蛋白質(zhì)結(jié)構(gòu)的人工智能,就可快速篩選成千上萬(wàn)的新藥物靶標(biāo)。
AlphaFold2多領(lǐng)域技術(shù)革命量身定制新蛋白
AlphaFold2對(duì)蛋白質(zhì)結(jié)構(gòu)的快速準(zhǔn)確解析,可以使科學(xué)家們從頭制造蛋白質(zhì),即自然界中不存在的蛋白質(zhì),其特性可根據(jù)所需的應(yīng)用進(jìn)行調(diào)整。通過(guò)AlphaFold2的計(jì)算,預(yù)測(cè)蛋白質(zhì)將如何折疊,它們的穩(wěn)定構(gòu)象是什么,可以開辟一個(gè)全新的生物學(xué)研究領(lǐng)域。
2020年1月下旬,DeepMind的科學(xué)家們使用AlphaFold2繪制了SARS-COV-2病毒的蛋白質(zhì)結(jié)構(gòu)圖--;這些結(jié)構(gòu)圖后來(lái)被實(shí)驗(yàn)證實(shí)是準(zhǔn)確的。隨后,世界各地的病毒學(xué)家開始使用AlphaFold2對(duì)新冠病毒進(jìn)行研究。加利福尼亞大學(xué)舊金山分校(美國(guó)加利福尼亞州)的研究人員使用AlphaFold2和低溫電子顯微鏡分析了Nsp2,這是SARS-COV-2病毒中的一種蛋白質(zhì)。這種特殊蛋白質(zhì)的結(jié)構(gòu)和功能尚不清楚,但使用AlphaFold2的結(jié)果表明它具有鋅離子結(jié)合位點(diǎn),表明這種蛋白質(zhì)在RNA結(jié)合中起作用,這可能對(duì)進(jìn)一步的研究產(chǎn)生影響。
在研究經(jīng)費(fèi)有限的項(xiàng)目中,AlphaFold2的免費(fèi)資源是非常有幫助的。2021年6月,DeepMind與總部位于日內(nèi)瓦的被忽視疾病藥物計(jì)劃(DNDi)建立新的合作伙伴關(guān)系。DNDi是一家非營(yíng)利性制藥組織,在過(guò)去18年中一直致力于解決發(fā)展中國(guó)家一些致命的疾病,如昏睡病、南美錐蟲病和利什曼病。AlphaFold2在尋找昏睡病的新療法方面已經(jīng)取得了相當(dāng)大的成功:用安全的藥物非西硝唑取代了美拉索丙醇(一種有毒化合物,導(dǎo)致每20名患者中有1人死亡),成為治療該疾病的新標(biāo)準(zhǔn)。DNDi的藥物化學(xué)家和項(xiàng)目負(fù)責(zé)人Ben Perry 說(shuō):“我們找到了安全的處理辦法,并且適用于所有形式的疾病。”
DNDi和華盛頓大學(xué)、鄧迪大學(xué)和葛蘭素史克的一組傳染病研究人員發(fā)現(xiàn)了一種分子,該分子能夠與克氏錐蟲上的一種蛋白質(zhì)結(jié)合,這種寄生蟲會(huì)導(dǎo)致南美錐蟲病疾病??茖W(xué)家想要研究這種蛋白質(zhì)的結(jié)構(gòu),以準(zhǔn)確了解藥物如何阻止寄生蟲發(fā)揮作用。在過(guò)去,這將是一項(xiàng)需要多年時(shí)間,且復(fù)雜而費(fèi)力的實(shí)驗(yàn)任務(wù),但通過(guò)AlphaFold2,DNDi和他們的合作者已經(jīng)獲得計(jì)算生成的對(duì)其結(jié)構(gòu)的預(yù)測(cè)?,F(xiàn)在可以利用這些知識(shí)來(lái)設(shè)計(jì)更多可以以不同方式與這種蛋白質(zhì)結(jié)合并殺死克氏錐蟲的藥物。佩里說(shuō):“這可以讓我們比幾年前看起來(lái)更快地解決恰加斯病和利什曼病。如果你能快速獲得這些蛋白質(zhì)結(jié)構(gòu),你就可以設(shè)計(jì)多種候選藥物,這樣你就有很多目標(biāo)可以用于臨床試驗(yàn)。”
英國(guó)樸茨茅斯大學(xué)酶創(chuàng)新中心通過(guò)應(yīng)用AlphaFold2設(shè)計(jì)了用于處理一次性塑料的蛋白質(zhì),這種蛋白質(zhì)在自然界中并不存在。如果沒(méi)有AlphaFold2的幫助,這種蛋白質(zhì)將很難被發(fā)現(xiàn)。
AlphaFold2應(yīng)用于制藥領(lǐng)域存爭(zhēng)議算法仍需完善
AI結(jié)構(gòu)預(yù)測(cè)的基本原理是將已知三維結(jié)構(gòu)的蛋白質(zhì)作為數(shù)據(jù)集進(jìn)行大量訓(xùn)練,輸入一個(gè)蛋白質(zhì)的氨基酸序列推算其三維結(jié)構(gòu),并和該蛋白質(zhì)的實(shí)驗(yàn)結(jié)構(gòu)比對(duì),以此強(qiáng)化機(jī)器深度學(xué)習(xí)能力和對(duì)未知蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)能力。簡(jiǎn)言之,就是大數(shù)據(jù)+智能算法。AlphaFold2又進(jìn)一步引入了新算法,而且在硬件上達(dá)到了16個(gè)TPU(tensor processing unit)級(jí)別,相當(dāng)于100多個(gè)GPU(graphics processing unit)的計(jì)算機(jī)中央處理器,對(duì)所有17萬(wàn)種已知蛋白質(zhì)結(jié)構(gòu)進(jìn)行了算法訓(xùn)練。
也就是說(shuō),此次AlphaFold2所取得的驚人成績(jī)完全離不開實(shí)驗(yàn)生物學(xué)家已經(jīng)弄清楚結(jié)構(gòu)的蛋白質(zhì)作為其比較或?qū)W習(xí)的模板。而且,AlphaFold2蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也并非解決了所有問(wèn)題,即使在競(jìng)賽中,它明顯地在一種蛋白質(zhì)上搖擺不定,這種蛋白質(zhì)由52個(gè)小重復(fù)片段組成,它們?cè)诮M裝時(shí)會(huì)扭曲彼此的位置。
所謂蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也只是結(jié)構(gòu)生物學(xué)研究的一個(gè)中間階段,是指無(wú)論是實(shí)驗(yàn)結(jié)構(gòu)解析還是 AI結(jié)構(gòu)預(yù)測(cè),其目的是理解生命機(jī)理。正如美國(guó)普林斯頓大學(xué)顏寧教授所講:“結(jié)構(gòu)生物學(xué)的主語(yǔ)是生物學(xué),是理解生命,是做出生物學(xué)發(fā)現(xiàn)?!睆膩喸拥皆釉俚椒肿訉用嬉廊皇俏锢砘瘜W(xué)過(guò)程,為什么分子層面的蛋白質(zhì)及其組成的生命具有了化學(xué)活性且能夠繁殖、演化?也就是說(shuō),分子層面的蛋白質(zhì)發(fā)生了什么樣的變化以及是如何變化的?解答這些問(wèn) 題才接近理解生命。
但是正如上文所言,理解蛋白質(zhì)功能必須理解其結(jié)構(gòu),而結(jié)構(gòu)解析目前遠(yuǎn)遠(yuǎn)超出了人類的認(rèn)知能力。也正因如此,很多實(shí)驗(yàn)生物學(xué)家將大量時(shí)間、精力投入到蛋白質(zhì)結(jié)構(gòu)實(shí)驗(yàn)解析上,也正因?yàn)檫@一進(jìn)程發(fā)展緩慢且困難重重,才促使人們另辟蹊徑,借助計(jì)算科學(xué)開展結(jié)構(gòu)預(yù)測(cè)。在這個(gè)意義上說(shuō),實(shí)驗(yàn)解析或算法預(yù)測(cè)是開展蛋白質(zhì)功能研究及認(rèn)識(shí)生命機(jī)理的工具和手段,但是不能說(shuō)因?yàn)樵谶@方面目前還非常困難且是當(dāng)下結(jié)構(gòu)生物學(xué)的主要工作,作為工具和手段的結(jié)構(gòu)解析或預(yù)測(cè)就成為了生物學(xué)的目的。要言之,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域做出了驚人的成績(jī),但這并不意味著AI明白地告訴了我們蛋白質(zhì)折疊的過(guò)程與原理。
雖然AlphaFold2在CASP14上讓評(píng)委們大開眼界,并且已經(jīng)被用于各種研究領(lǐng)域,但這只是此類計(jì)算技術(shù)的開始。某一蛋白質(zhì)可能存在10300個(gè)構(gòu)象,但蛋白質(zhì)是如何在瞬間自發(fā)地折疊成正確的形狀,AlphaFold2仍無(wú)法對(duì)此做出解答。AlphaFold2目前代表了AI蛋白質(zhì)預(yù)測(cè)的黃金標(biāo)準(zhǔn),但隨著這項(xiàng)技術(shù)的發(fā)展和演變,這一基準(zhǔn)將繼續(xù)提高。
準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),在設(shè)計(jì)治療方法的過(guò)程中是有益的,它使研究人員能夠可視化目標(biāo)蛋白質(zhì)的形狀。然而,目前AlphaFold2的局限性意味著藥物設(shè)計(jì)領(lǐng)域仍未發(fā)生重大變化。預(yù)測(cè)較大的多域蛋白質(zhì)復(fù)合物的形狀并了解所有氨基酸側(cè)鏈的位置對(duì)于設(shè)計(jì)藥物分子很重要:這些是AlphaFold2目前難以預(yù)測(cè)的領(lǐng)域。近期的一篇論文還強(qiáng)調(diào),雖然AlphaFold2預(yù)測(cè)的結(jié)構(gòu)數(shù)據(jù)可能會(huì)縮短早期的研究時(shí)間,但不太可能徹底縮短新藥從實(shí)驗(yàn)室到患者的時(shí)間。
題圖來(lái)源:EXXACT,僅用于學(xué)術(shù)交流
參考資料:
[2]GitHub - deepmind/alphafold: Open source code for AlphaFold.
[3]AlphaFold Protein Structure Database. alphafold.ebi.ac.uk.
[5]趙云波。AI預(yù)測(cè)可以代替科學(xué)實(shí)驗(yàn)嗎?醫(yī)學(xué)與哲學(xué),2021。DOI:10.12014/j.issn.1002-0772.2021.06.04
對(duì)普通大眾來(lái)說(shuō),谷歌AlphaFold似曾相識(shí),而這份相識(shí)來(lái)源于它的孿生兄弟--打敗圍棋高手的AlphaGo。AlphaFold隸屬于谷歌旗下的人工智能(Artificial Intelligence,AI)公司Deep Mind。Deep Mind聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis表示:“Deep Mind的終極愿景是構(gòu)建通用人工智能,用它來(lái)幫助我們更好地了解我們周圍的世界,加快科學(xué)發(fā)現(xiàn)的步伐?!蹦壳?,Deep Mind擁有員工1000名左右,成立以來(lái)幾無(wú)營(yíng)收,儼然成為谷歌旗下燒錢的公司。然而,Deep Mind已經(jīng)與Facebook AI Research、微軟和Open AI等公司一起成為全球AI競(jìng)賽的領(lǐng)導(dǎo)者?;贏lphaFold,谷歌又一次“搞事情”,將其人工智能應(yīng)用于人類科學(xué)中棘手的領(lǐng)域-生物學(xué)。
2020年,在第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根據(jù)基因序列預(yù)測(cè)了生命基本分子--蛋白質(zhì)的三維結(jié)構(gòu),取得了中位分?jǐn)?shù)為92.4(滿分100分),比第二名高25分,打敗了所有競(jìng)爭(zhēng)對(duì)手。甚至可以分析X-射線晶體學(xué)很難解決的楔入細(xì)胞膜中的蛋白質(zhì)結(jié)構(gòu),這是許多人類疾病的核心。CASP發(fā)起人之一穆爾特更是感嘆:“我從未想過(guò)在我的有生之年可以見證這一偉大?!?020年11月30日,Deep Mind宣布:“AlphaFold2成功解開了一個(gè)困擾人類長(zhǎng)達(dá)50年之久的生物學(xué)難題--蛋白質(zhì)折疊問(wèn)題?!?021年7月15日,關(guān)于AlphaFold2的論文在Nature上發(fā)表[1],并在Github上將AlphaFold2的代碼開源[2],以及上線可搜索的物種蛋白質(zhì)組數(shù)據(jù)庫(kù)[3]。中國(guó)科學(xué)院院士施一公認(rèn)為:AlphaFold2是人工智能對(duì)科學(xué)領(lǐng)域較大的一次貢獻(xiàn),也是人類在21世紀(jì)取得的較重要的科學(xué)突破之一。
AlphaFold2的論文在Nature上發(fā)表
研究成果AlphaFold2的論文在Nature上發(fā)表(圖源:Nature
AlphaFold2厲害在哪里?顛覆醫(yī)學(xué)的技術(shù)突破
蛋白質(zhì)是生物體內(nèi)一切功能的執(zhí)行者,我們身體內(nèi)的任何功能,從催化化學(xué)反應(yīng)到抵御外來(lái)侵略都是蛋白質(zhì)作用的結(jié)果;我們能行走、運(yùn)動(dòng)靠的是肌肉中肌動(dòng)蛋白的工作;我們身體的骨架是由蛋白質(zhì)骨膠原加強(qiáng)的;細(xì)胞的正常分裂或癌變也是通過(guò)蛋白質(zhì)調(diào)節(jié)控制的。具有完整一級(jí)結(jié)構(gòu)的多肽或蛋白質(zhì),只有當(dāng)其折疊形成正確的三維空間結(jié)構(gòu)才可能具有正常的生物學(xué)功能。如果這些生物大分子的折疊在體內(nèi)發(fā)生了故障,形成錯(cuò)誤的空間結(jié)構(gòu),不但將喪失其生物學(xué)功能,還會(huì)引起各種疾病,如:肺氣腫、癌癥、老年癡呆、帕金森氏癥等。
蛋白質(zhì)一般是由幾十到幾百個(gè)氨基酸脫水縮合組成的多肽鏈,蛋白質(zhì)氨基酸有22種,常見的有20種。在肽鏈上一個(gè)具體的位置為什么出現(xiàn)特定的氨基酸而不是別的氨基酸,以及為什么與這一氨基酸前后相連的氨基酸也是固定的?這與分子生物學(xué)中心法則密切相關(guān):“DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)?!本唧w來(lái)講,DNA上儲(chǔ)存的遺傳信息,也就是堿基序列首先轉(zhuǎn)錄到RNA上,再由RNA上的堿基序列編碼特定的氨基酸序列,以此構(gòu)成蛋白質(zhì)的物質(zhì)基礎(chǔ)。后來(lái)人們發(fā)現(xiàn)三個(gè)堿基形成一個(gè)密碼子,對(duì)應(yīng)編碼某一具體的氨基酸,密碼子在基因上的位置決定了氨基酸在肽鏈上的位置,形成了蛋白質(zhì)的一級(jí)結(jié)構(gòu)。但是,此時(shí)的線性結(jié)構(gòu)還必須折疊形成天然三維結(jié)構(gòu)之后才能具備承擔(dān)活體生物所需的獨(dú)特功能。然而,50多年來(lái)科學(xué)家對(duì)蛋白質(zhì)如何從一維結(jié)構(gòu)快速、準(zhǔn)確地折疊成具有生物功能的天然三維結(jié)構(gòu)的認(rèn)知依然非常有限,這就是生物學(xué)領(lǐng)域著名的蛋白質(zhì)折疊難題。
分子生物學(xué)中心法則:DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)
分子生物學(xué)中心法則:DNA轉(zhuǎn)錄RNA、RNA翻譯蛋白質(zhì)(圖源:[4])
蛋白質(zhì)就像小巧精致的生物機(jī)器,而機(jī)器的結(jié)構(gòu)決定了它的功能,因此揭示蛋白質(zhì)的結(jié)構(gòu)可以幫助我們理解蛋白質(zhì)的功能。如果我們清楚蛋白質(zhì)的結(jié)構(gòu),就能對(duì)其功能展開有根據(jù)的猜測(cè)。通過(guò)繪制大量蛋白質(zhì)結(jié)構(gòu)圖,我們可以解讀生命的生物學(xué)原理,并找到解決問(wèn)題的根本方法。
目前開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑為借助實(shí)驗(yàn)儀器解析蛋白質(zhì)結(jié)構(gòu)如:X-射線衍射、核磁共振技術(shù)、冷凍電鏡技術(shù)以及智能計(jì)算預(yù)測(cè)。諾貝爾化學(xué)獎(jiǎng)得主Christian Anfinsen,在1972年曾提出,基于蛋白質(zhì)的1D氨基酸序列可計(jì)算并預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)。然而,3D結(jié)構(gòu)在形成之前會(huì)有數(shù)以億計(jì)的折疊方式。有數(shù)據(jù)顯示,一個(gè)典型的蛋白質(zhì)大約有10300種可能的構(gòu)型,如果用實(shí)驗(yàn)方法來(lái)計(jì)算所有可能的構(gòu)型,可能花費(fèi)的時(shí)間比宇宙都要長(zhǎng)。通過(guò)實(shí)驗(yàn)方法確定蛋白質(zhì)結(jié)構(gòu)是一項(xiàng)耗時(shí)且艱苦的工作,而AlphaFold2證明了人工智能可以在短短幾分鐘內(nèi)準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),并且精確到原子級(jí)。
表1. 開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑
開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑
開展蛋白質(zhì)結(jié)構(gòu)研究的主要途徑,數(shù)據(jù)來(lái)源:醫(yī)學(xué)與哲學(xué)雜志[5];
以新冠疫苗為例:它的研發(fā)基礎(chǔ)全在于我們繪制出了病毒表面用于入侵人體的細(xì)胞刺突蛋白的結(jié)構(gòu)圖。不妨把刺突蛋白的三維結(jié)構(gòu)看作是一把鎖,倘若我們能描繪出鎖的形狀,自然便可設(shè)計(jì)出鑰匙,也就是藥物或疫苗,來(lái)反制病毒。蛋白質(zhì)的三維折疊形狀以其一維的氨基酸序列為基礎(chǔ)。如果AI擅長(zhǎng)發(fā)現(xiàn)那些復(fù)雜氨基酸序列構(gòu)建立體形狀的模式(人類在這方面的能力較弱),那么它就有望替代那些成本極高的實(shí)驗(yàn)室技術(shù)。
從實(shí)用性角度來(lái)看,AlphaFold2的成功為我們攻克諸多重大疾病提供了助力。我們?cè)O(shè)計(jì)的幾乎所有的藥物都作用于蛋白質(zhì),如鑰匙開鎖般精確匹配,而此過(guò)程的第一步是確定哪把鑰匙開哪把鎖,用更專業(yè)的話說(shuō),就是尋找藥物靶標(biāo),即弄清楚藥物分子作用與何種蛋白結(jié)合。如果我們擁有可解碼蛋白質(zhì)結(jié)構(gòu)的人工智能,就可快速篩選成千上萬(wàn)的新藥物靶標(biāo)。
AlphaFold2多領(lǐng)域技術(shù)革命量身定制新蛋白
AlphaFold2對(duì)蛋白質(zhì)結(jié)構(gòu)的快速準(zhǔn)確解析,可以使科學(xué)家們從頭制造蛋白質(zhì),即自然界中不存在的蛋白質(zhì),其特性可根據(jù)所需的應(yīng)用進(jìn)行調(diào)整。通過(guò)AlphaFold2的計(jì)算,預(yù)測(cè)蛋白質(zhì)將如何折疊,它們的穩(wěn)定構(gòu)象是什么,可以開辟一個(gè)全新的生物學(xué)研究領(lǐng)域。
2020年1月下旬,DeepMind的科學(xué)家們使用AlphaFold2繪制了SARS-COV-2病毒的蛋白質(zhì)結(jié)構(gòu)圖--這些結(jié)構(gòu)圖后來(lái)被實(shí)驗(yàn)證實(shí)是準(zhǔn)確的。隨后,世界各地的病毒學(xué)家開始使用AlphaFold2對(duì)新冠病毒進(jìn)行研究。加利福尼亞大學(xué)舊金山分校(美國(guó)加利福尼亞州)的研究人員使用AlphaFold2和低溫電子顯微鏡分析了Nsp2,這是SARS-COV-2病毒中的一種蛋白質(zhì)。這種特殊蛋白質(zhì)的結(jié)構(gòu)和功能尚不清楚,但使用AlphaFold2的結(jié)果表明它具有鋅離子結(jié)合位點(diǎn),表明這種蛋白質(zhì)在RNA結(jié)合中起作用,這可能對(duì)進(jìn)一步的研究產(chǎn)生影響。
在研究經(jīng)費(fèi)有限的項(xiàng)目中,AlphaFold2的免費(fèi)資源是非常有幫助的。2021年6月,DeepMind與總部位于日內(nèi)瓦的被忽視疾病藥物計(jì)劃(DNDi)建立新的合作伙伴關(guān)系。DNDi是一家非營(yíng)利性制藥組織,在過(guò)去18年中一直致力于解決發(fā)展中國(guó)家一些致命的疾病,如昏睡病、南美錐蟲病和利什曼病。AlphaFold2在尋找昏睡病的新療法方面已經(jīng)取得了相當(dāng)大的成功:用安全的藥物非西硝唑取代了美拉索丙醇(一種有毒化合物,導(dǎo)致每20名患者中有1人死亡),成為治療該疾病的新標(biāo)準(zhǔn)。DNDi的藥物化學(xué)家和項(xiàng)目負(fù)責(zé)人Ben Perry 說(shuō):“我們找到了安全的處理辦法,并且適用于所有形式的疾病。”
DNDi和華盛頓大學(xué)、鄧迪大學(xué)和葛蘭素史克的一組傳染病研究人員發(fā)現(xiàn)了一種分子,該分子能夠與克氏錐蟲上的一種蛋白質(zhì)結(jié)合,這種寄生蟲會(huì)導(dǎo)致南美錐蟲病疾病??茖W(xué)家想要研究這種蛋白質(zhì)的結(jié)構(gòu),以準(zhǔn)確了解藥物如何阻止寄生蟲發(fā)揮作用。在過(guò)去,這將是一項(xiàng)需要多年時(shí)間,且復(fù)雜而費(fèi)力的實(shí)驗(yàn)任務(wù),但通過(guò)AlphaFold2,DNDi和他們的合作者已經(jīng)獲得計(jì)算生成的對(duì)其結(jié)構(gòu)的預(yù)測(cè)?,F(xiàn)在可以利用這些知識(shí)來(lái)設(shè)計(jì)更多可以以不同方式與這種蛋白質(zhì)結(jié)合并殺死克氏錐蟲的藥物。佩里說(shuō):“這可以讓我們比幾年前看起來(lái)更快地解決恰加斯病和利什曼病。如果你能快速獲得這些蛋白質(zhì)結(jié)構(gòu),你就可以設(shè)計(jì)多種候選藥物,這樣你就有很多目標(biāo)可以用于臨床試驗(yàn)?!?/div>
英國(guó)樸茨茅斯大學(xué)酶創(chuàng)新中心通過(guò)應(yīng)用AlphaFold2設(shè)計(jì)了用于處理一次性塑料的蛋白質(zhì),這種蛋白質(zhì)在自然界中并不存在。如果沒(méi)有AlphaFold2的幫助,這種蛋白質(zhì)將很難被發(fā)現(xiàn)。
AlphaFold2應(yīng)用于制藥領(lǐng)域存爭(zhēng)議算法仍需完善
AI結(jié)構(gòu)預(yù)測(cè)的基本原理是將已知三維結(jié)構(gòu)的蛋白質(zhì)作為數(shù)據(jù)集進(jìn)行大量訓(xùn)練,輸入一個(gè)蛋白質(zhì)的氨基酸序列推算其三維結(jié)構(gòu),并和該蛋白質(zhì)的實(shí)驗(yàn)結(jié)構(gòu)比對(duì),以此強(qiáng)化機(jī)器深度學(xué)習(xí)能力和對(duì)未知蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)能力。簡(jiǎn)言之,就是大數(shù)據(jù)+智能算法。AlphaFold2又進(jìn)一步引入了新算法,而且在硬件上達(dá)到了16個(gè)TPU(tensor processing unit)級(jí)別,相當(dāng)于100多個(gè)GPU(graphics processing unit)的計(jì)算機(jī)中央處理器,對(duì)所有17萬(wàn)種已知蛋白質(zhì)結(jié)構(gòu)進(jìn)行了算法訓(xùn)練。
也就是說(shuō),此次AlphaFold2所取得的驚人成績(jī)完全離不開實(shí)驗(yàn)生物學(xué)家已經(jīng)弄清楚結(jié)構(gòu)的蛋白質(zhì)作為其比較或?qū)W習(xí)的模板。而且,AlphaFold2蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也并非解決了所有問(wèn)題,即使在競(jìng)賽中,它明顯地在一種蛋白質(zhì)上搖擺不定,這種蛋白質(zhì)由52個(gè)小重復(fù)片段組成,它們?cè)诮M裝時(shí)會(huì)扭曲彼此的位置。
所謂蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)也只是結(jié)構(gòu)生物學(xué)研究的一個(gè)中間階段,是指無(wú)論是實(shí)驗(yàn)結(jié)構(gòu)解析還是 AI結(jié)構(gòu)預(yù)測(cè),其目的是理解生命機(jī)理。正如美國(guó)普林斯頓大學(xué)顏寧教授所講:“結(jié)構(gòu)生物學(xué)的主語(yǔ)是生物學(xué),是理解生命,是做出生物學(xué)發(fā)現(xiàn)?!睆膩喸拥皆釉俚椒肿訉用嬉廊皇俏锢砘瘜W(xué)過(guò)程,為什么分子層面的蛋白質(zhì)及其組成的生命具有了化學(xué)活性且能夠繁殖、演化?也就是說(shuō),分子層面的蛋白質(zhì)發(fā)生了什么樣的變化以及是如何變化的?解答這些問(wèn) 題才接近理解生命。
但是正如上文所言,理解蛋白質(zhì)功能必須理解其結(jié)構(gòu),而結(jié)構(gòu)解析目前遠(yuǎn)遠(yuǎn)超出了人類的認(rèn)知能力。也正因如此,很多實(shí)驗(yàn)生物學(xué)家將大量時(shí)間、精力投入到蛋白質(zhì)結(jié)構(gòu)實(shí)驗(yàn)解析上,也正因?yàn)檫@一進(jìn)程發(fā)展緩慢且困難重重,才促使人們另辟蹊徑,借助計(jì)算科學(xué)開展結(jié)構(gòu)預(yù)測(cè)。在這個(gè)意義上說(shuō),實(shí)驗(yàn)解析或算法預(yù)測(cè)是開展蛋白質(zhì)功能研究及認(rèn)識(shí)生命機(jī)理的工具和手段,但是不能說(shuō)因?yàn)樵谶@方面目前還非常困難且是當(dāng)下結(jié)構(gòu)生物學(xué)的主要工作,作為工具和手段的結(jié)構(gòu)解析或預(yù)測(cè)就成為了生物學(xué)的目的。要言之,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域做出了驚人的成績(jī),但這并不意味著AI明白地告訴了我們蛋白質(zhì)折疊的過(guò)程與原理。
雖然AlphaFold2在CASP14上讓評(píng)委們大開眼界,并且已經(jīng)被用于各種研究領(lǐng)域,但這只是此類計(jì)算技術(shù)的開始。某一蛋白質(zhì)可能存在10300個(gè)構(gòu)象,但蛋白質(zhì)是如何在瞬間自發(fā)地折疊成正確的形狀,AlphaFold2仍無(wú)法對(duì)此做出解答。AlphaFold2目前代表了AI蛋白質(zhì)預(yù)測(cè)的黃金標(biāo)準(zhǔn),但隨著這項(xiàng)技術(shù)的發(fā)展和演變,這一基準(zhǔn)將繼續(xù)提高。
準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),在設(shè)計(jì)治療方法的過(guò)程中是有益的,它使研究人員能夠可視化目標(biāo)蛋白質(zhì)的形狀。然而,目前AlphaFold2的局限性意味著藥物設(shè)計(jì)領(lǐng)域仍未發(fā)生重大變化。預(yù)測(cè)較大的多域蛋白質(zhì)復(fù)合物的形狀并了解所有氨基酸側(cè)鏈的位置對(duì)于設(shè)計(jì)藥物分子很重要:這些是AlphaFold2目前難以預(yù)測(cè)的領(lǐng)域。近期的一篇論文還強(qiáng)調(diào),雖然AlphaFold2預(yù)測(cè)的結(jié)構(gòu)數(shù)據(jù)可能會(huì)縮短早期的研究時(shí)間,但不太可能徹底縮短新藥從實(shí)驗(yàn)室到患者的時(shí)間。
題圖來(lái)源:EXXACT,僅用于學(xué)術(shù)交流
參考資料:
[2]GitHub - deepmind/alphafold: Open source code for AlphaFold.
[3]AlphaFold Protein Structure Database. alphafold.ebi.ac.uk.
[5]趙云波。AI預(yù)測(cè)可以代替科學(xué)實(shí)驗(yàn)嗎?醫(yī)學(xué)與哲學(xué),2021。DOI:10.12014/j.issn.1002-0772.2021.06.04