
รูปร่างโปรตีนจำนวนมากมาจากสิ่งมีชีวิตที่วิทยาศาสตร์ไม่รู้จักอย่างสมบูรณ์
นักวิทยาศาสตร์ที่ Meta ซึ่งเป็นบริษัทแม่ของ Facebook และ Instagram ได้ใช้แบบจำลองภาษาปัญญาประดิษฐ์ (AI) เพื่อทำนายโครงสร้างที่ไม่รู้จักของโปรตีนมากกว่า 600 ล้านตัวที่เป็นของไวรัสแบคทีเรีย และจุลินทรีย์อื่นๆ
โปรแกรมที่เรียกว่า ESMFold ใช้แบบจำลองที่ได้รับการออกแบบมาเพื่อถอดรหัสภาษามนุษย์เพื่อทำนายการบิดเบี้ยวและผลัดเปลี่ยนของโปรตีนที่กำหนดโครงสร้าง 3 มิติได้ อย่างแม่นยำ การคาดการณ์ซึ่งรวบรวมไว้ในโอเพ่นซอร์สESM Metagenomic Atlasสามารถใช้เพื่อช่วยพัฒนายาใหม่ ระบุลักษณะการทำงานของจุลินทรีย์ที่ไม่รู้จัก และติดตามการเชื่อมต่อวิวัฒนาการระหว่างสายพันธุ์ที่เกี่ยวข้องกันที่อยู่ห่างไกล
ESMFold ไม่ใช่โปรแกรมแรกในการทำนายโปรตีน ในปี 2022 บริษัท DeepMind ซึ่งเป็นบริษัทของ Google ได้ประกาศว่าโปรแกรมทำนายโปรตีน AlphaFold ได้ถอดรหัสรูปร่างของโปรตีนประมาณ 200 ล้านชนิดที่วิทยาศาสตร์รู้จัก ESMFold นั้นไม่แม่นยำเท่า AlphaFold แต่เร็วกว่าโปรแกรมของ DeepMind ถึง 60 เท่า Meta กล่าว ผลลัพธ์ยังไม่ได้รับการตรวจสอบโดยเพื่อน
“ESM Metagenomic Atlas จะช่วยให้นักวิทยาศาสตร์สามารถค้นหาและวิเคราะห์โครงสร้างของโปรตีน metagenomic ในระดับหลายร้อยล้านของโปรตีน” ทีมวิจัย Meta เขียนในบล็อกโพสต์ที่มาพร้อมกับการเผยแพร่บทความไปยังฐานข้อมูลpreprint bioRxiv “สิ่งนี้สามารถช่วยให้นักวิจัยระบุโครงสร้างที่ไม่เคยมีมาก่อน ค้นหาความสัมพันธ์ทางวิวัฒนาการที่ห่างไกล และค้นพบโปรตีนใหม่ที่อาจเป็นประโยชน์ในทางการแพทย์และการใช้งานอื่นๆ”
โปรตีนเป็นส่วนประกอบสำคัญของสิ่งมีชีวิตทั้งหมด และประกอบด้วยกรดอะมิโนที่พันกันเป็นสายยาว ซึ่งเป็นหน่วยโมเลกุลเล็กๆ ที่ประกอบเข้าด้วยกันเป็นรูปร่าง 3 มิติของโปรตีน
การรู้รูปร่างของโปรตีนเป็นวิธีที่ดีที่สุดในการทำความเข้าใจหน้าที่ของมัน แต่มีหลายวิธีที่การผสมผสานของกรดอะมิโนที่เหมือนกันในลำดับต่างๆ กันสามารถก่อตัวได้ แม้ว่าโปรตีนจะมีรูปร่างที่แน่นอนอย่างรวดเร็วและเชื่อถือได้เมื่อผลิตขึ้นแล้ว แต่จำนวนรูปแบบที่เป็นไปได้คือประมาณ 10^300 วิธีมาตรฐานทองคำในการกำหนดโครงสร้างของโปรตีนคือการใช้ผลึกเอ็กซ์เรย์ โดยเห็นว่าลำแสงพลังงานสูงกระจายตัวไปรอบๆ โปรตีนอย่างไร แต่วิธีนี้เป็นวิธีที่ใช้ความอุตสาหะซึ่งอาจใช้เวลาหลายเดือนหรือหลายปีกว่าจะได้ผลลัพธ์ แต่ก็ไม่ได้ผล สำหรับโปรตีนทุกประเภท หลังจากทำงานมาหลายทศวรรษ โครงสร้างโปรตีนมากกว่า100,000 โครงสร้างได้รับการถอดรหัสผ่านผลึกศาสตร์เอ็กซ์เรย์
เพื่อหาทางแก้ไขปัญหานี้ นักวิจัย Meta ได้หันไปใช้แบบจำลองคอมพิวเตอร์ที่ซับซ้อนซึ่งออกแบบมาเพื่อถอดรหัสและคาดการณ์เกี่ยวกับภาษาของมนุษย์ และใช้แบบจำลองนี้กับภาษาของลำดับโปรตีนแทน
เรื่องราวที่เกี่ยวข้อง
- โปรตีนคืออะไร?
— DeepMind ถอดรหัส ‘ปม’ ที่นักคณิตศาสตร์จอมปลอมมานานหลายทศวรรษ
— Google AI ‘มีความรู้สึก’ วิศวกรซอฟต์แวร์อ้างว่าก่อนถูกระงับ
“การใช้รูปแบบการเรียนรู้ด้วยตนเองที่เรียกว่าการสร้างแบบจำลองภาษาที่สวมหน้ากาก เราฝึกแบบจำลองภาษาบนลำดับโปรตีนธรรมชาตินับล้านๆ ตัว” นักวิจัยเขียน “ด้วยวิธีการนี้ แบบจำลองต้องเติมข้อความในช่องว่างให้ถูกต้อง เช่น “ถึง _ หรือไม่ถึง _ นั่นคือ __” เราฝึกแบบจำลองภาษาเพื่อเติมช่องว่างในลำดับโปรตีน เช่น “GL_KKE_AHY_G” ในโปรตีนหลายล้านชนิด เราพบว่าข้อมูลเกี่ยวกับโครงสร้างและหน้าที่ของโปรตีนมาจากการฝึกอบรมนี้”
เพื่อทดสอบแบบจำลองของพวกเขา นักวิทยาศาสตร์ได้หันไปใช้ฐานข้อมูลของ metagenomic DNA (ที่ตั้งชื่อเพราะได้รับการจัดลำดับจำนวนมากจากแหล่งสิ่งแวดล้อมหรือทางคลินิก) ที่นำมาจากสถานที่ต่างๆ ที่หลากหลาย เช่น ดิน น้ำทะเล ลำไส้และผิวหนังของมนุษย์ โดยการป้อนข้อมูล DNA ลงในโปรแกรม ESMFold นักวิจัยคาดการณ์โครงสร้างของโปรตีนมากกว่า 617 ล้านตัวในเวลาเพียงสองสัปดาห์
มากกว่า 400 ล้านอย่างที่ AlphaFold ประกาศว่าได้ถอดรหัสเมื่อ 4 เดือนที่แล้ว โดยอ้างว่าได้อนุมานโครงสร้างโปรตีนของโปรตีนเกือบทุกชนิดที่รู้จัก ซึ่งหมายความว่าโปรตีนเหล่านี้จำนวนมากไม่เคยเห็นมาก่อน อาจเป็นเพราะโปรตีนเหล่านี้มาจากสิ่งมีชีวิตที่ไม่รู้จัก การคาดการณ์โปรตีนของ ESMFold มากกว่า 200 ล้านครั้งคาดว่าจะมีคุณภาพสูง ตามแบบจำลอง หมายความว่าโปรแกรมสามารถทำนายรูปร่างได้อย่างแม่นยำจนถึงระดับอะตอม
นักวิจัยหวังว่าจะใช้โปรแกรมนี้เพื่องานที่เน้นโปรตีนมากขึ้น “เพื่อขยายงานนี้ไปอีก เรากำลังศึกษาว่าแบบจำลองภาษาสามารถใช้ในการออกแบบโปรตีนใหม่และมีส่วนร่วมในการแก้ปัญหาด้านสุขภาพ โรคภัย และสิ่งแวดล้อมได้อย่างไร” Meta เขียน