AI預測出幾乎所有已知蛋白質結構,有望加快新藥研發。
DeepMind的研究人員匯集了來自結構生物學,物理學和機器學習領域的專家,應用尖端技術僅根據其基因序列預測蛋白質的3D結構。
(資料圖片僅供參考)
而最近DeepMind公司與歐洲生物信息研究所的合作團隊公布了生物學領域的一項重大飛躍。他們利用人工智能(AI)系統AlphaFold預測出超過100萬個物種的2.14億個蛋白質結構,幾乎涵蓋了地球上所有已知蛋白質。這一突破將加速新藥開發,并為基礎科學帶來全新革命。
AlphaFold工具已經確定了大約2億種蛋白質的結構,這些蛋白質來自地球上幾乎所有已知的生物體。該研究發布于《Nature》。
作者:Kiara Cuter|
編譯:劉唐詩 |
蛋白質結構有什么大不了的?
“蛋白質是維持生命所必需的大而復雜的分子。我們身體執行的幾乎每一項功能——收縮肌肉、感知光或將食物轉化為能量——都可以追溯到一種或多種蛋白質以及它們如何移動和變化。“
蛋白質的功能完全取決于其形式(3D結構)。以抗體蛋白為例,這些蛋白質可以在我們的免疫系統中找到,它們是“Y形”的,其功能類似于鉤子。通過鎖定病毒和細菌,抗體蛋白可以檢測并標記惡性微生物以進行滅絕。可能還有人聽說過CRISPR和Cas9蛋白,它們的作用就像剪刀一樣剪切和粘貼DNA。
我們已經在蛋白質方面做了很多工作,但純粹從蛋白質的基因序列中找出蛋白質的3D形狀是科學家們幾十年來一直試圖帶頭的任務。
挑戰在于DNA僅包含有關蛋白質構建塊序列的信息,稱為氨基酸殘基,這些氨基酸殘基形成長鏈。預測這些鏈將如何折疊成蛋白質的復雜3D結構就是所謂的“蛋白質折疊問題”。
在較大的蛋白質中,計算氨基酸相互作用以產生可能的結構的方式將是一項幾乎不可能完成的任務,這需要太多時間。
然而從現在開始,確定幾乎所有科學已知的蛋白質的3D形狀將像使用搜索引擎一樣簡單。
研究人員已經使用AlphaFold(革命性的人工智能(AI)網絡)來預測來自100萬個物種的約2億種蛋白質的結構,幾乎涵蓋了地球上所有已知的蛋白質。從本質上講,它涵蓋了整個蛋白質世界。
蛋白質的3D形狀或結構決定了它在細胞中的功能。大多數藥物都是使用結構信息設計的,準確的地圖通常是發現蛋白質如何工作的第一步。
倫敦大學學院的計算生物學家使用AlphaFold數據庫來鑒定新的蛋白質家族,她評價說研究人員正在為這個巨大寶庫的釋放做好準備。
這對我們意味著什么?
預測蛋白質形狀的能力對科學家很有用,因為它對于了解其在體內的作用以及診斷和治療被認為由錯誤折疊的蛋白質引起的疾病至關重要,例如阿爾茨海默氏癥,帕金森氏癥,亨廷頓氏癥和囊性纖維化。
這意味著獲得有關蛋白質形狀及其運作方式的知識在藥物發現中開辟了新的潛力。
這使我們能夠獲得新的見解,從而提高我們對身體及其工作原理的理解。
這將使科學家能夠更有效地創造新的、更有效的疾病治療方法。
這最終可以改善全球數百萬患者的生活質量。
科學家們已經能夠使用各種實驗技術在實驗室中確定蛋白質的形狀,但每種方法都依賴于大量的試驗和錯誤,并且每個結構的成本要花費數萬美元。
這正是研究人員轉向人工智能方法來破譯困難蛋白質的原因。
什么是神經網絡?
神經網絡是一組算法(由計算機運行的過程),它們松散地以人腦為模型。這些網絡旨在識別模式。他們識別的模式是數字的,包含在向量中,所有現實世界的數據,無論是圖像,聲音,文本還是時間序列,都必須被翻譯成向量。
神經網絡幫助我們聚類和分類。您可以將它們視為存儲和管理的數據之上的聚類和分類圖層。它們有助于根據示例輸入之間的相似性對未標記的數據進行分組,并且在您為它們提供標記數據集后對數據進行排序/分類(例如,一個帶有“貓”字樣的框,其中包含一些貓的圖片)。
分類用法示例:狗+貓
這對于在大型數據集中查找模式非常有用。基因組學領域的數據已經變得非常豐富。這意味著,在過去幾年中,基于基因組數據的深度學習方法來解決我們的預測問題已經變得越來越流行,這已經不是什么大相徑庭的事情了。
深度神經網絡(顧名思義)比普通神經網絡具有更大的深度。也就是說,在模式識別的多步驟過程中,數據通過的節點層數量增加。我們可以將這些節點層設想為水過濾系統中的不同步驟,其中每個步驟都旨在篩選特定類型的沉積物。對于 DNN,此沉積物是基于前一個圖層的輸出的一組獨特特征。
越深入神經網絡,節點可以識別的特征就越復雜,因為它們包含了前一層的特征。
AlphaFold如何使用 DNN?
為了創建蛋白質的3D表示。深度思維訓練了兩個神經網絡。一個網絡預測兩件事:
? 氨基酸對之間的距離
? 連接這些氨基酸的化學鍵之間的角度
這些將用于估計氨基酸對是否彼此靠近。
另一個神經網絡被訓練來預測蛋白質中每對殘基之間的可能距離(氨基酸殘基是氨基酸的一部分,使其與其他所有殘基不同)。
“未折疊”蛋白片
然后將這些概率組合成一個分數,用于估計所提出的蛋白質結構的準確性。訓練了一個單獨的神經網絡,該網絡一致地使用所有距離來估計所提出的結構與正確答案的接近程度。
然后使用這些評分函數來搜索蛋白質數據,以找到與AlphaFold預測相匹配的結構。
重要的是要注意這種方法可以與結構生物學中常用的技術進行比較,其中蛋白質結構的片段被新的蛋白質片段反復替換。DeepMind使用生成神經網絡發明了新的片段,這些片段在結構中進行了測試,以提高所提出的蛋白質結構的分數——本質上是為了更接近結構可能是什么。
第二種方法試圖通過一種名為梯度下降的數學技術來達到更高的分數,其中進行小的,漸進的改進以達到局部/全局最優值(在這種情況下是理想的分數)。
該技術應用于整個蛋白質鏈,而不是組裝前必須單獨折疊的片段,從而降低了預測過程的復雜性。
未來會怎樣?
AlphaFold作為一個整體真實地代表了機器學習系統如何整合各種信息來源,以幫助科學家快速為復雜問題提出創造性的解決方案。
人工智能在科學研究中的應用有可能支持比以往更大的社會影響。它將使我們能夠理解和探索新材料和新技術的使用,同時深入研究舊結構(如蛋白質的功能)。藥物發現和醫學研究也將受益于這些新的人工智能驅動的科學技術。
對蛋白質折疊的理解也將有助于蛋白質設計,這可以釋放出巨大的好處。例如,可生物降解酶的進步 - 可以通過蛋白質設計來實現 - 可以幫助管理塑料和石油等污染物,幫助我們以對環境更友好的方式分解廢物。
多倫多一家名為Genecis的生物技術初創公司目前正在使用細菌來消化食物垃圾,并用它來在其微小的微生物腸道中形成可生物降解的塑料。這是兩個世界問題合二為一,他們的下一步是快速設計細菌,將有機廢物轉化為高級化學品。
雖然仍然存在許多問題,但似乎對蛋白質如何工作的理解將成為我們解決地球面臨的最大問題的基石——從確定疾病發生的原因以及如何治療疾病,到創造可以消除塑料廢物的酶以防止對環境造成有毒威脅。
歸根結底,這些類型的研究突破將使我們的人口過上更有用和更充實的生活。我們完全有理由相信人工智能會加速我們到達他們。
延伸閱讀
大量采購與疫情雙重壓力加速醫藥數字化轉型,醫藥企業開始追求有限的資源投入以最大限度提升營銷效果,醫藥營銷數字化已經來到了效果為王的階段。其中,大型跨國醫藥企業與創新型醫藥企業在現階段數字化轉型需求最為迫切。
疫情后主數據管理系統及線上醫生運營平臺這兩個醫藥營銷數字化工具受到企業的歡迎。
醫藥營銷數字化發展的五大特征,分別為
(1)國內外醫藥企業營銷模式和組織架構差異大,企業需要更加靈活的數字化解決方案;
(2)跨國醫藥企業與本土創新藥企業挑選醫藥營銷數字化供應商的標準差異大;
(3)跨系統間醫藥數據清洗難度大,企業需要靈活智能的數據管理系統;
(4)醫藥企業內部培養相關團隊周期長;
(5)團隊磨合成本高以及醫藥企業偏好使用設計簡潔且產品功能豐富的營銷數字化產品。
未來,隨著醫藥企業數字化轉型的深入,營銷數字化的市場規模將迎來快速增長,其中聚焦醫藥領域的本土醫藥營銷數字化企業有望占領更多的市場份額。
本文提供的信息僅用于一般指導和信息目的,本文的內容在任何情況下均不應被視為投資、業務、法律或稅務建議。
本文首發于微信公眾號:出新研究。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
關鍵詞: