Белковая инженерия на человеческом языке
Белки — ключевые функциональные молекулы жизни. Они состоят из последовательностей аминокислот, каждая из которых обозначается одной из 20 букв латинского алфавита. Эти «слова» складываются в сложные 3D-структуры, от которых зависит работа белка — от ферментов, расщепляющих пищу, до компонентов иммунной системы.
Идея о том, что этот биохимический язык можно генерировать, как текст в ChatGPT, породила новую волну интереса к так называемым языковым моделям белков. Но в отличие от сложных и громоздких систем, требующих серьёзной подготовки, Pinal делает следующий шаг — предлагает интерфейс, понятный и доступный для обычного исследователя: просто напиши, что тебе нужно, — и получи белковый кандидат.
От подсказки к молекуле: как работает Pinal
Pinal — это двухступенчатая система. Сначала ИИ преобразует естественный язык (например: «белок, расщепляющий алкоголь») в описание структурных характеристик: вторичная структура, участки связывания, карманы и петли. Затем, используя языковую модель белков, называемую SaProt, система генерирует конкретную аминокислотную последовательность, которая с высокой вероятностью свернётся в белок с желаемой функцией.
Обучение проводилось на массиве из 1,7 миллиарда пар «текст — белковая структура», что позволило Pinal «понять» как язык биологии, так и специфику задач, которые ставят учёные.
Прорыв в синтетической биологии
Команда под руководством Фацзе Юаня из Университета Вестлейк (Китай) продемонстрировала, что Pinal не просто генерирует последовательности, но создаёт работающие белки.
В одном из экспериментов исследователи задали ИИ простую команду: «Создай белок-алкогольдегидрогеназу». Из 1600 кандидатов были отобраны восемь лучших, два из которых успешно расщепляли этанол в живых клетках при физиологической температуре. Другие проявляли активность при более высоких температурах — вплоть до 70°C.
Более сложные запросы, включавшие описание функции и аналогов, привели к генерации кандидатов на антибиотики и белков, способствующих восстановлению клеток после инфекции.
Конкуренция и ограничения
Pinal не одинок. Стартап 310.AI разрабатывает аналогичный ИИ под названием MP4, а исследователи Meta обучили масштабную модель ESM-3 на 2,7 миллиардах белковых последовательностей. Однако, по сравнению с ними, Pinal показал более высокую точность и «новизну» — способность создавать ранее неизвестные, но потенциально функциональные белки.
Тем не менее, как и другие LLM, белковые ИИ склонны к «галлюцинациям» — генерации неработающих или избыточно повторяющихся последовательностей. Влияние формулировки подсказки также остаётся значительным: даже небольшие изменения в тексте могут кардинально изменить результат.
Порог новой эпохи
Pinal пока не заменяет экспериментальную биологию — все сгенерированные белки требуют валидации. Но он может радикально ускорить начальные этапы исследований, предлагая ученым возможность экспериментировать с дизайном без необходимости в глубоких знаниях структурной биологии.
«Мы впервые создали работающий фермент, используя лишь текстовое описание», — комментирует Юань. — «Это уже не научная фантастика, это работающая технология».
По аналогии с тем, как DALL·E и Midjourney открыли визуальное творчество миллионам пользователей, такие модели, как Pinal, могут вскоре стать неотъемлемой частью лабораторной практики биологов, фармакологов и инженеров белков.
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!