AI預測出幾乎所有已知蛋白質(zhì)結構,有望加快新藥研發(fā)。
DeepMind的研究人員匯集了來自結構生物學,物理學和機器學習領域的專家,應用尖端技術僅根據(jù)其基因序列預測蛋白質(zhì)的3D結構。
(資料圖片僅供參考)
而最近DeepMind公司與歐洲生物信息研究所的合作團隊公布了生物學領域的一項重大飛躍。他們利用人工智能(AI)系統(tǒng)AlphaFold預測出超過100萬個物種的2.14億個蛋白質(zhì)結構,幾乎涵蓋了地球上所有已知蛋白質(zhì)。這一突破將加速新藥開發(fā),并為基礎科學帶來全新革命。
AlphaFold工具已經(jīng)確定了大約2億種蛋白質(zhì)的結構,這些蛋白質(zhì)來自地球上幾乎所有已知的生物體。該研究發(fā)布于《Nature》。
作者:Kiara Cuter|
編譯:劉唐詩 |
蛋白質(zhì)結構有什么大不了的?
“蛋白質(zhì)是維持生命所必需的大而復雜的分子。我們身體執(zhí)行的幾乎每一項功能——收縮肌肉、感知光或?qū)⑹澄镛D化為能量——都可以追溯到一種或多種蛋白質(zhì)以及它們?nèi)绾我苿雍妥兓!?/p>
蛋白質(zhì)的功能完全取決于其形式(3D結構)。以抗體蛋白為例,這些蛋白質(zhì)可以在我們的免疫系統(tǒng)中找到,它們是“Y形”的,其功能類似于鉤子。通過鎖定病毒和細菌,抗體蛋白可以檢測并標記惡性微生物以進行滅絕。可能還有人聽說過CRISPR和Cas9蛋白,它們的作用就像剪刀一樣剪切和粘貼DNA。
我們已經(jīng)在蛋白質(zhì)方面做了很多工作,但純粹從蛋白質(zhì)的基因序列中找出蛋白質(zhì)的3D形狀是科學家們幾十年來一直試圖帶頭的任務。
挑戰(zhàn)在于DNA僅包含有關蛋白質(zhì)構建塊序列的信息,稱為氨基酸殘基,這些氨基酸殘基形成長鏈。預測這些鏈將如何折疊成蛋白質(zhì)的復雜3D結構就是所謂的“蛋白質(zhì)折疊問題”。
在較大的蛋白質(zhì)中,計算氨基酸相互作用以產(chǎn)生可能的結構的方式將是一項幾乎不可能完成的任務,這需要太多時間。
然而從現(xiàn)在開始,確定幾乎所有科學已知的蛋白質(zhì)的3D形狀將像使用搜索引擎一樣簡單。
研究人員已經(jīng)使用AlphaFold(革命性的人工智能(AI)網(wǎng)絡)來預測來自100萬個物種的約2億種蛋白質(zhì)的結構,幾乎涵蓋了地球上所有已知的蛋白質(zhì)。從本質(zhì)上講,它涵蓋了整個蛋白質(zhì)世界。
蛋白質(zhì)的3D形狀或結構決定了它在細胞中的功能。大多數(shù)藥物都是使用結構信息設計的,準確的地圖通常是發(fā)現(xiàn)蛋白質(zhì)如何工作的第一步。
倫敦大學學院的計算生物學家使用AlphaFold數(shù)據(jù)庫來鑒定新的蛋白質(zhì)家族,她評價說研究人員正在為這個巨大寶庫的釋放做好準備。
這對我們意味著什么?
預測蛋白質(zhì)形狀的能力對科學家很有用,因為它對于了解其在體內(nèi)的作用以及診斷和治療被認為由錯誤折疊的蛋白質(zhì)引起的疾病至關重要,例如阿爾茨海默氏癥,帕金森氏癥,亨廷頓氏癥和囊性纖維化。
這意味著獲得有關蛋白質(zhì)形狀及其運作方式的知識在藥物發(fā)現(xiàn)中開辟了新的潛力。
這使我們能夠獲得新的見解,從而提高我們對身體及其工作原理的理解。
這將使科學家能夠更有效地創(chuàng)造新的、更有效的疾病治療方法。
這最終可以改善全球數(shù)百萬患者的生活質(zhì)量。
科學家們已經(jīng)能夠使用各種實驗技術在實驗室中確定蛋白質(zhì)的形狀,但每種方法都依賴于大量的試驗和錯誤,并且每個結構的成本要花費數(shù)萬美元。
這正是研究人員轉向人工智能方法來破譯困難蛋白質(zhì)的原因。
什么是神經(jīng)網(wǎng)絡?
神經(jīng)網(wǎng)絡是一組算法(由計算機運行的過程),它們松散地以人腦為模型。這些網(wǎng)絡旨在識別模式。他們識別的模式是數(shù)字的,包含在向量中,所有現(xiàn)實世界的數(shù)據(jù),無論是圖像,聲音,文本還是時間序列,都必須被翻譯成向量。
神經(jīng)網(wǎng)絡幫助我們聚類和分類。您可以將它們視為存儲和管理的數(shù)據(jù)之上的聚類和分類圖層。它們有助于根據(jù)示例輸入之間的相似性對未標記的數(shù)據(jù)進行分組,并且在您為它們提供標記數(shù)據(jù)集后對數(shù)據(jù)進行排序/分類(例如,一個帶有“貓”字樣的框,其中包含一些貓的圖片)。
分類用法示例:狗+貓
這對于在大型數(shù)據(jù)集中查找模式非常有用。基因組學領域的數(shù)據(jù)已經(jīng)變得非常豐富。這意味著,在過去幾年中,基于基因組數(shù)據(jù)的深度學習方法來解決我們的預測問題已經(jīng)變得越來越流行,這已經(jīng)不是什么大相徑庭的事情了。
深度神經(jīng)網(wǎng)絡(顧名思義)比普通神經(jīng)網(wǎng)絡具有更大的深度。也就是說,在模式識別的多步驟過程中,數(shù)據(jù)通過的節(jié)點層數(shù)量增加。我們可以將這些節(jié)點層設想為水過濾系統(tǒng)中的不同步驟,其中每個步驟都旨在篩選特定類型的沉積物。對于 DNN,此沉積物是基于前一個圖層的輸出的一組獨特特征。
越深入神經(jīng)網(wǎng)絡,節(jié)點可以識別的特征就越復雜,因為它們包含了前一層的特征。
AlphaFold如何使用 DNN?
為了創(chuàng)建蛋白質(zhì)的3D表示。深度思維訓練了兩個神經(jīng)網(wǎng)絡。一個網(wǎng)絡預測兩件事:
? 氨基酸對之間的距離
? 連接這些氨基酸的化學鍵之間的角度
這些將用于估計氨基酸對是否彼此靠近。
另一個神經(jīng)網(wǎng)絡被訓練來預測蛋白質(zhì)中每對殘基之間的可能距離(氨基酸殘基是氨基酸的一部分,使其與其他所有殘基不同)。
“未折疊”蛋白片
然后將這些概率組合成一個分數(shù),用于估計所提出的蛋白質(zhì)結構的準確性。訓練了一個單獨的神經(jīng)網(wǎng)絡,該網(wǎng)絡一致地使用所有距離來估計所提出的結構與正確答案的接近程度。
然后使用這些評分函數(shù)來搜索蛋白質(zhì)數(shù)據(jù),以找到與AlphaFold預測相匹配的結構。
重要的是要注意這種方法可以與結構生物學中常用的技術進行比較,其中蛋白質(zhì)結構的片段被新的蛋白質(zhì)片段反復替換。DeepMind使用生成神經(jīng)網(wǎng)絡發(fā)明了新的片段,這些片段在結構中進行了測試,以提高所提出的蛋白質(zhì)結構的分數(shù)——本質(zhì)上是為了更接近結構可能是什么。
第二種方法試圖通過一種名為梯度下降的數(shù)學技術來達到更高的分數(shù),其中進行小的,漸進的改進以達到局部/全局最優(yōu)值(在這種情況下是理想的分數(shù))。
該技術應用于整個蛋白質(zhì)鏈,而不是組裝前必須單獨折疊的片段,從而降低了預測過程的復雜性。
未來會怎樣?
AlphaFold作為一個整體真實地代表了機器學習系統(tǒng)如何整合各種信息來源,以幫助科學家快速為復雜問題提出創(chuàng)造性的解決方案。
人工智能在科學研究中的應用有可能支持比以往更大的社會影響。它將使我們能夠理解和探索新材料和新技術的使用,同時深入研究舊結構(如蛋白質(zhì)的功能)。藥物發(fā)現(xiàn)和醫(yī)學研究也將受益于這些新的人工智能驅(qū)動的科學技術。
對蛋白質(zhì)折疊的理解也將有助于蛋白質(zhì)設計,這可以釋放出巨大的好處。例如,可生物降解酶的進步 - 可以通過蛋白質(zhì)設計來實現(xiàn) - 可以幫助管理塑料和石油等污染物,幫助我們以對環(huán)境更友好的方式分解廢物。
多倫多一家名為Genecis的生物技術初創(chuàng)公司目前正在使用細菌來消化食物垃圾,并用它來在其微小的微生物腸道中形成可生物降解的塑料。這是兩個世界問題合二為一,他們的下一步是快速設計細菌,將有機廢物轉化為高級化學品。
雖然仍然存在許多問題,但似乎對蛋白質(zhì)如何工作的理解將成為我們解決地球面臨的最大問題的基石——從確定疾病發(fā)生的原因以及如何治療疾病,到創(chuàng)造可以消除塑料廢物的酶以防止對環(huán)境造成有毒威脅。
歸根結底,這些類型的研究突破將使我們的人口過上更有用和更充實的生活。我們完全有理由相信人工智能會加速我們到達他們。
延伸閱讀
大量采購與疫情雙重壓力加速醫(yī)藥數(shù)字化轉型,醫(yī)藥企業(yè)開始追求有限的資源投入以最大限度提升營銷效果,醫(yī)藥營銷數(shù)字化已經(jīng)來到了效果為王的階段。其中,大型跨國醫(yī)藥企業(yè)與創(chuàng)新型醫(yī)藥企業(yè)在現(xiàn)階段數(shù)字化轉型需求最為迫切。
疫情后主數(shù)據(jù)管理系統(tǒng)及線上醫(yī)生運營平臺這兩個醫(yī)藥營銷數(shù)字化工具受到企業(yè)的歡迎。
醫(yī)藥營銷數(shù)字化發(fā)展的五大特征,分別為
(1)國內(nèi)外醫(yī)藥企業(yè)營銷模式和組織架構差異大,企業(yè)需要更加靈活的數(shù)字化解決方案;
(2)跨國醫(yī)藥企業(yè)與本土創(chuàng)新藥企業(yè)挑選醫(yī)藥營銷數(shù)字化供應商的標準差異大;
(3)跨系統(tǒng)間醫(yī)藥數(shù)據(jù)清洗難度大,企業(yè)需要靈活智能的數(shù)據(jù)管理系統(tǒng);
(4)醫(yī)藥企業(yè)內(nèi)部培養(yǎng)相關團隊周期長;
(5)團隊磨合成本高以及醫(yī)藥企業(yè)偏好使用設計簡潔且產(chǎn)品功能豐富的營銷數(shù)字化產(chǎn)品。
未來,隨著醫(yī)藥企業(yè)數(shù)字化轉型的深入,營銷數(shù)字化的市場規(guī)模將迎來快速增長,其中聚焦醫(yī)藥領域的本土醫(yī)藥營銷數(shù)字化企業(yè)有望占領更多的市場份額。
本文提供的信息僅用于一般指導和信息目的,本文的內(nèi)容在任何情況下均不應被視為投資、業(yè)務、法律或稅務建議。
本文首發(fā)于微信公眾號:出新研究。文章內(nèi)容屬作者個人觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風險請自擔。
關鍵詞: