亚洲视频在线免费|一级免费黄色毛片|成人欧美视频在线观看播放|欧美一级夜夜爽黑寡妇

  • 咨詢熱線:025-58361106-801   Email: info@njpeptide.com

    中文      English

    總機:025-58361106-801

    傳真:025-58361107-806

    Email:info@njpeptide.com

    地址:南京市化學工業園區方水路158號三樓


    最新資訊

    您當前的位置:首頁 > 關于我們 > 最新資訊


    生物界的ChatGPT來了! 蛋白質語言模型 ProGen助力特定功能蛋白質設計!


    人工智能已經將蛋白質工程研究的時間縮短了數年。深度學習語言模型在各種生物技術應用中顯示出前景,包括蛋白質設計和工程。


    現在,來自 Salesforce Research、Tierra Biosciences 和加州大學的研究團隊在實驗室中合成了由 AI 模型預測的蛋白質,并發現它們與天然對應物一樣有效。他們開發出一種名為 ProGen 的蛋白質工程深度學習語言模型。ProGen 接受了來自公開的已測序天然蛋白質數據庫中的 2.8 億個原始蛋白質序列的訓練,從頭開始生成人工蛋白質序列。最新方法有望用于研制新藥。


    科學家表示,這項新技術可能比獲得諾貝爾獎的蛋白質設計技術定向進化更強大,它將通過加速可用于幾乎任何事物的新蛋白質的開發,這些新蛋白質幾乎可以用于從治療到降解塑料的任何領域。從而為已有 50 年歷史的蛋白質工程領域注入活力。


    該研究以「Large language models generate functional protein sequences across diverse families」為題,于 2023 年 1 月 26 日發布在《Nature Biotechnology》上。

     Large language models generate functional protein sequences across diverse families
    Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos Jr., Caiming Xiong, Zachary Z. Sun, Richard Socher, James S. Fraser & Nikhil Naik 
    Nature Biotechnology (2023)


    Abstract
    Deep-learning language models have shown promise in various biotechnological applications, including protein design and engineering. Here we describe ProGen, a language model that can generate protein sequences with a predictable function across large protein families, akin to generating grammatically and semantically correct natural language sentences on diverse topics. The model was trained on 280 million protein sequences from >19,000 families and is augmented with control tags specifying protein properties. ProGen can be further fine-tuned to curated sequences and tags to improve controllable generation performance of proteins from families with sufficient homologous samples. Artificial proteins fine-tuned to five distinct lysozyme families showed similar catalytic efficiencies as natural lysozymes, with sequence identity to natural proteins as low as 31.4%.  ProGen is readily adapted to diverse protein families, as we demonstrate with chorismate mutase and malate dehydrogenase.


    蛋白質工程的傳統方法是對天然蛋白質序列進行迭代誘變和選擇,以鑒定具有所需功能和結構特性的蛋白質。相比之下,合理或從頭設計蛋白質的方法旨在提高創造具有所需特性的新蛋白質的效率和精度。


    基于結構的從頭設計方法采用基于生物物理原理的模擬,而協同進化方法則從進化序列數據中建立統計模型,以指定具有所需功能或穩定性的新序列。結構和共同進化的方法都有一定的局限性。


    最近,深度神經網絡已顯示出作為蛋白質科學和工程的生成和判別模型的前景。它們學習復雜表示的能力對于有效地利用指數級增長的多樣化和相對未注釋的蛋白質數據來源可能是至關重要的——公共數據庫包含數百萬個未對齊的原始蛋白質序列


    ProGen:蛋白質語言模型


    受到基于深度學習的自然語言模型的成功啟發,該研究團隊開發了 ProGen,這是一種蛋白質語言模型,在數百萬個原始蛋白質序列上訓練,可生成跨多個家族和功能的人造蛋白質。




    圖 1:使用條件語言建模的人工蛋白質生成。(來源:論文)


    ProGen 通過學習在給定原始序列中過去的氨基酸的情況下,預測下一個氨基酸的概率來迭代優化,沒有明確的結構信息或成對協同進化假設。ProGen 以這種無監督的方式從一個大型、多樣的蛋白質序列數據庫中進行訓練,學習了一種通用的、域獨立的蛋白質表示,它包含局部和全局結構基序,類似于學習語義和語法規則的自然語言模型。訓練后,ProGen 可以提示從頭開始為任何蛋白質家族生成全長蛋白質序列,與天然蛋白質具有不同程度的相似性。


    ProGen 是一個 12 億參數的神經網絡,使用包含 2.8 億個蛋白質序列的公開數據集進行訓練。ProGen 的一個關鍵組成部分是條件生成,即由屬性標簽控制的序列生成作為語言模型的輸入提供。在自然語言的情況下,這些控制標簽可能是風格、主題、日期和其他實體。對于蛋白質,控制標簽是蛋白質家族、生物過程和分子功能等屬性,可用于公共蛋白質數據庫中的大部分序列。


    為了創建模型,科學家們只需將 2.8 億種不同蛋白質的氨基酸序列輸入機器學習模型,讓它「消化」信息幾周。然后,他們通過使用來自五個溶菌酶家族的 56,000 個序列以及有關這些蛋白質的一些上下文信息來啟動模型,從而對模型進行微調。


    該模型迅速生成了一百萬個序列,研究團隊根據它們與天然蛋白質序列的相似程度以及 AI 蛋白質的潛在氨基酸「語法」和「語義」的自然程度,選擇了 100 個進行測試。




    圖 2:生成的人工抗菌蛋白多種多樣,在該實驗系統中表達良好。(來源:論文)


    從頭開始生成人工蛋白質序列


    為了評估功能,通過無細胞蛋白合成和親和層析來合成和純化全長基因。在 100 種天然蛋白質的陽性對照集中,72% 的表達良好。ProGen 生成的蛋白質在所有序列同一性箱中與任何已知的天然蛋白質的表達同樣好。此外,使用 bmDCA7(一種基于直接耦合分析的統計模型) 設計了人工蛋白質,bmDCA 無法適應五個溶菌酶家族中的三個,并且對其余兩個蛋白質家族表現出 60% 的可檢測表達(30/50 蛋白質)。這些結果表明,與一批天然蛋白質相比,ProGen 可以生成結構良好折疊的人工蛋白質,即使序列對齊大小和質量限制了替代方法的成功,也能正確表達。


    在第一批由 Tierra Biosciences 進行體外篩選的 100 種蛋白質中,該團隊制作了五種人工蛋白質以在細胞中進行測試,并將它們的活性與雞蛋清中發現的一種酶(稱為雞蛋清溶菌酶,HEWL)進行比較。在人類的眼淚、唾液和牛奶中發現了類似的溶菌酶,它們可以抵御細菌和真菌。




    圖 3:人工蛋白質序列具有功能,同時與任何已知蛋白質的同一性低至 31%,表現出與高度進化的天然蛋白質相當的催化效率,并展示與已知天然折疊相似的結構。(來源:論文)


    結果表明,ProGen 生成的蛋白質序列不僅可以很好地表達,而且可以維持跨蛋白質家族的不同序列景觀的酶功能。


    其中兩種人工酶能夠以與 HEWL 相當的活性分解細菌的細胞壁,但它們的序列彼此只有約 18% 相同。這兩個序列與任何已知蛋白質的同一性約為 90% 和 70%。


    天然蛋白質中的一個突變就可以使其停止工作,但在另一輪篩選中,研究小組發現,即使只有 31.4% 的序列與任何已知的天然蛋白質相似,AI 生成的酶仍顯示出活性。


    為了解通用序列數據集和目標蛋白質家族序列對 ProGen 生成能力的相對影響,研究人員使用分支酸變位酶(CM) 和蘋果酸脫氫酶(MDH)實驗測量的測定數據進行了兩項消融研究。


    結果表明,訓練策略的兩個組成部分——對通用序列數據集的初始訓練和對感興趣的蛋白質家族的微調——對最終模型性能有顯著貢獻。使用包含許多蛋白質家族的通用序列數據集進行訓練,使 ProGen 能夠學習編碼內在生物學特性的通用且可轉移的序列表示。對感興趣的蛋白質家族進行微調可以引導這種表示,以提高局部序列鄰域的生成質量。


    正在進入蛋白質設計的新時代

    Salesforce Research 的研究主管 Nikhil Naik 表示,他們的目標是證明可以利用公開可用的蛋白質數據,將大型語言模型部署到蛋白質設計問題中?!讣热晃覀円呀涀C明 ProGen 有能力產生新的蛋白質,我們已經公開發布了這些模型,以便其他人可以在我們的研究基礎上進行構建?!?/span>


      「開箱即用地從頭開始生成功能性蛋白質的能力,表明我們正在進入蛋白質設計的新時代,」該論文的第一作者,Profluent Bio 創始人、Salesforce Research 前研究科學家 Ali Madani 博士說,「這是蛋白質工程師可用的多功能新工具,我們期待看到治療應用?!?/span>
     

        與此同時,研究人員仍在繼續改進 ProGen,試圖突破更多的限制和挑戰。其中之一便它非常地依賴數據。


      「我們已經探索了通過加入基于結構的信息來改善序列的設計,」Naik 說,「我們還在研究當你沒有太多關于某個特定蛋白質家族或領域的數據時,如何提高模型的生成能力?!?/span>


        值得注意的是,還有一些初創公司也在嘗試相似的技術,比如 Cradle,以及自生物技術孵化器 Flagship Pioneering 的 Generate Biomedicines,不過這些研究都還未經過同行評審。


    生物界的ChatGPT來了! 蛋白質語言模型 ProGen助力特定功能蛋白質設計!

    產品反饋單 | 尊敬的客戶,如果您對南京肽業生物科技有限公司 的產品和服務有不滿意的地方,請您在這里對我們的產品和服務質量進行建議、監督和投訴。