Trong một nghiên cứu được công bố đầu tháng 7/2024 trên cơ sở dữ liệu bioRxiv, các nhà khoa học đã sử dụng mô hình AI mới ESM3, để tạo ra một loại protein huỳnh quang mới chỉ chia sẻ 58% trình tự của nó với các protein huỳnh quang xuất hiện tự nhiên. (Ảnh: Quartz )Theo EvolutionaryScale, công nghệ này có thể hữu ích trong các lĩnh vực từ khám phá thuốc đến thiết kế các hóa chất mới để phân hủy nhựa. (Ảnh: EvolutionaryScale)ESM3 là một mô hình ngôn ngữ lớn (LLM) tương tự như GPT-4 của OpenAI, hỗ trợ chatbot ChatGPT và các nhà khoa học đã phát triển phiên bản lớn nhất của họ trên 2,78 tỷ protein. (Ảnh: EvolutionaryScale)Đối với mỗi protein, họ trích xuất thông tin về trình tự (thứ tự của các khối xây dựng axit amin tạo nên protein), cấu trúc (hình dạng gấp ba chiều của protein) và chức năng. Họ che giấu ngẫu nhiên những phần thông tin về các protein này và yêu cầu ESM3 dự đoán những phần còn thiếu. (Ảnh: EvolutionaryScale)Họ đã nhân rộng mô hình này từ nghiên cứu mà nhóm đã thực hiện khi còn ở Meta. Vào năm 2022, họ đã công bố EMSFold — tiền thân của ESM3 dự đoán các cấu trúc protein vi sinh vật chưa biết. Năm đó, DeepMind của Alphabet cũng dự đoán cấu trúc protein của 200 triệu protein. (Ảnh: EvolutionaryScale)Các nhà khoa học sau đó đã chỉ ra rằng có những hạn chế đối với những dự đoán của các mô hình AI này và những dự đoán về protein cần phải được xác minh. Nhưng các phương pháp này vẫn có thể tăng tốc đáng kể việc tìm kiếm cấu trúc protein, bởi vì giải pháp thay thế là sử dụng tia X để vạch ra từng cấu trúc protein, một cách rất chậm và tốn kém. (Ảnh: EvolutionaryScale)Tuy nhiên, ESM3 không chỉ dự đoán các protein hiện có. Sử dụng thông tin thu thập được từ 771 tỷ thông tin độc đáo về cấu trúc, chức năng và trình tự, mô hình có thể tạo ra các protein mới với các chức năng cụ thể. Nó được một trong những người ủng hộ EvolutionaryScale mô tả là "ChatGPT dành cho sinh học". (Ảnh: EvolutionaryScale)Trong nghiên cứu mới, các nhà nghiên cứu đã yêu cầu mô hình tạo ra một loại protein huỳnh quang mới - một loại protein thu giữ ánh sáng và giải phóng nó trở lại ở bước sóng dài hơn, khiến nó tỏa sáng với sắc thái xanh lục mới. (Ảnh: EvolutionaryScale)Những protein này rất quan trọng đối với các nhà nghiên cứu sinh học, những người nối chúng vào các phân tử mà họ quan tâm nghiên cứu để theo dõi và chụp ảnh chúng; khám phá và sự phát triển của họ đã giành được giải thưởng Nobel về hóa học năm 2008. (Ảnh: UCF Business Incubation Program)Mô hình này đã tạo ra 96 protein có trình tự và cấu trúc có khả năng tạo ra huỳnh quang. Mặc dù protein này kém sáng hơn 50 lần so với protein huỳnh quang màu xanh lá cây tự nhiên, nhưng ESM3 đã tạo ra một bước lặp khác dẫn đến các chuỗi mới làm tăng độ sáng. (Ảnh: Staffnet)Kết quả là tạo ra một loại protein huỳnh quang màu xanh lá cây không giống bất kỳ protein nào được tìm thấy trong tự nhiên, được đặt tên là "esmGPF". Nhóm EvolutionaryScale ước tính những lần lặp lại này, được thực hiện trong giây lát bởi AI nhưng sẽ mất 500 triệu năm tiến hóa để đạt được. (Ảnh: UNESCO)
Trong một nghiên cứu được công bố đầu tháng 7/2024 trên cơ sở dữ liệu bioRxiv, các nhà khoa học đã sử dụng mô hình AI mới ESM3, để tạo ra một loại protein huỳnh quang mới chỉ chia sẻ 58% trình tự của nó với các protein huỳnh quang xuất hiện tự nhiên. (Ảnh: Quartz )
Theo EvolutionaryScale, công nghệ này có thể hữu ích trong các lĩnh vực từ khám phá thuốc đến thiết kế các hóa chất mới để phân hủy nhựa. (Ảnh: EvolutionaryScale)
ESM3 là một mô hình ngôn ngữ lớn (LLM) tương tự như GPT-4 của OpenAI, hỗ trợ chatbot ChatGPT và các nhà khoa học đã phát triển phiên bản lớn nhất của họ trên 2,78 tỷ protein. (Ảnh: EvolutionaryScale)
Đối với mỗi protein, họ trích xuất thông tin về trình tự (thứ tự của các khối xây dựng axit amin tạo nên protein), cấu trúc (hình dạng gấp ba chiều của protein) và chức năng. Họ che giấu ngẫu nhiên những phần thông tin về các protein này và yêu cầu ESM3 dự đoán những phần còn thiếu. (Ảnh: EvolutionaryScale)
Họ đã nhân rộng mô hình này từ nghiên cứu mà nhóm đã thực hiện khi còn ở Meta. Vào năm 2022, họ đã công bố EMSFold — tiền thân của ESM3 dự đoán các cấu trúc protein vi sinh vật chưa biết. Năm đó, DeepMind của Alphabet cũng dự đoán cấu trúc protein của 200 triệu protein. (Ảnh: EvolutionaryScale)
Các nhà khoa học sau đó đã chỉ ra rằng có những hạn chế đối với những dự đoán của các mô hình AI này và những dự đoán về protein cần phải được xác minh. Nhưng các phương pháp này vẫn có thể tăng tốc đáng kể việc tìm kiếm cấu trúc protein, bởi vì giải pháp thay thế là sử dụng tia X để vạch ra từng cấu trúc protein, một cách rất chậm và tốn kém. (Ảnh: EvolutionaryScale)
Tuy nhiên, ESM3 không chỉ dự đoán các protein hiện có. Sử dụng thông tin thu thập được từ 771 tỷ thông tin độc đáo về cấu trúc, chức năng và trình tự, mô hình có thể tạo ra các protein mới với các chức năng cụ thể. Nó được một trong những người ủng hộ EvolutionaryScale mô tả là "ChatGPT dành cho sinh học". (Ảnh: EvolutionaryScale)
Trong nghiên cứu mới, các nhà nghiên cứu đã yêu cầu mô hình tạo ra một loại protein huỳnh quang mới - một loại protein thu giữ ánh sáng và giải phóng nó trở lại ở bước sóng dài hơn, khiến nó tỏa sáng với sắc thái xanh lục mới. (Ảnh: EvolutionaryScale)
Những protein này rất quan trọng đối với các nhà nghiên cứu sinh học, những người nối chúng vào các phân tử mà họ quan tâm nghiên cứu để theo dõi và chụp ảnh chúng; khám phá và sự phát triển của họ đã giành được giải thưởng Nobel về hóa học năm 2008. (Ảnh: UCF Business Incubation Program)
Mô hình này đã tạo ra 96 protein có trình tự và cấu trúc có khả năng tạo ra huỳnh quang. Mặc dù protein này kém sáng hơn 50 lần so với protein huỳnh quang màu xanh lá cây tự nhiên, nhưng ESM3 đã tạo ra một bước lặp khác dẫn đến các chuỗi mới làm tăng độ sáng. (Ảnh: Staffnet)
Kết quả là tạo ra một loại protein huỳnh quang màu xanh lá cây không giống bất kỳ protein nào được tìm thấy trong tự nhiên, được đặt tên là "esmGPF". Nhóm EvolutionaryScale ước tính những lần lặp lại này, được thực hiện trong giây lát bởi AI nhưng sẽ mất 500 triệu năm tiến hóa để đạt được. (Ảnh: UNESCO)