Учёные из Массачусетского технологического института (MIT) разработали систему искусственного интеллекта под названием DefensePredictor, которая способна находить новые белки бактериальной иммунной защиты всего за несколько минут, тогда как традиционные методы требуют для этого недели или даже месяцы. В ходе первого тестирования алгоритм обнаружил более 600 белков, ранее не связанных с иммунной системой, в различных штаммах кишечной палочки Escherichia coli. Лабораторные испытания подтвердили, что часть этих белков действительно защищает бактерии от атак бактериофагов — вирусов, которые могут уничтожить до четверти бактериальной популяции за сутки. Это свидетельствует о том, что ИИ не просто классифицирует известные системы, но и находит новые функционально активные механизмы защиты.
Исследование основывается на принципе постоянной эволюционной гонки между бактериями и вирусами. В ответ на атаки фагов микроорганизмы разработали множество иммунных стратегий, таких как разрушение вирусной ДНК и сложные системы запоминания инфекций. Наиболее известной из таких систем является CRISPR, которая изначально была обнаружена как часть бактериальной защиты и позже стала инструментом для генного редактирования. Однако CRISPR — лишь одна из множества подобных систем, и учёные уже выявили сотни других механизмов бактериальной защиты. Предполагается, что многие из них остаются неоткрытыми из-за ограничений традиционных методов поиска, так как гены часто распределены по геному и не образуют очевидных кластеров.
Модель DefensePredictor решает эту проблему, используя языковую модель белков ESM-2, которая обучена понимать последовательности аминокислот так же, как большие языковые модели понимают текст. Белки рассматриваются как последовательности из 20 букв, формирующих сложные структуры и функции. Для обучения модели исследователи из MIT использовали базу данных, собранную с помощью предыдущего алгоритма DefenseFinder, включающую около 15 000 белков, связанных с иммунной защитой, и более 186 000 белков без такой функции из примерно 17 000 микробных геномов.
После обучения DefensePredictor проанализировал 69 штаммов E. coli и выявил более 600 потенциальных защитных белков, включая более 100 ранее неизвестных вариантов. Примечательно, что почти половина из них не располагалась рядом в геноме, что ранее считалось характерным признаком совместно работающих систем. Для проверки результатов исследователи внедрили часть найденных белков в уязвимый штамм бактерий и подвергли их атаке различных бактериофагов. Около 45% белков обеспечили защиту хотя бы от одного вируса, подтверждая их функциональную роль.
Дальнейший анализ, расширенный на более чем 1000 микробных видов, выявил тысячи дополнительных потенциальных защитных белков, ранее не описанных в научной литературе. Параллельно другая группа из Института Пастера с помощью собственных ИИ-моделей предсказала около 2,4 миллиона потенциальных антивирусных белков в более чем 32 000 бактериальных геномов, что подчёркивает масштаб скрытого биологического разнообразия. Учёные подчёркивают, что бактериальные системы защиты представляют собой огромный, практически неисследованный резерв биологических механизмов. Помимо CRISPR, известны системы с функциями молекулярных ножниц, токсин-антитоксинные комплексы и другие механизмы, которые применяются в биотехнологии — от генной инженерии до создания биологических выключателей для контроля модифицированных организмов.
Основная проблема заключается в том, что большинство таких систем крайне трудно обнаружить стандартными методами. Именно поэтому ИИ-подходы становятся важными, так как они позволяют анализировать миллионы последовательностей и выявлять функциональные закономерности, которые человек не может увидеть напрямую. По словам исследователей, конечная цель таких систем — не только ускорить поиск новых биологических инструментов, но и понять, как в принципе эволюционировала иммунная система микроорганизмов. В перспективе такие открытия могут привести к появлению нового поколения технологий: от более точных методов генного редактирования до принципиально новых молекулярных инструментов для медицины и синтетической биологии.