Метод, впервые представленный летом 2025 года и недавно обновлённый на конференции NeurIPS 2025, вызвал новый всплеск интереса в ИИ-сообществе. Код SEAL доступен на GitHub под лицензией MIT, разрешающей коммерческое использование.
Что делает SEAL особенным
В отличие от традиционных моделей, которые обучаются на статичных данных и требуют ручной донастройки, SEAL позволяет языковым моделям автономно генерировать собственные обучающие примеры и стратегии оптимизации. По сути, модель «учится учиться» — анализируя собственные ошибки и создавая уточняющие версии данных, на которых затем себя же обучает.
Эта система сочетает два контура:
- внутренний цикл — контролируемая тонкая настройка на основе самосгенерированных данных;
- внешний цикл — обучение с подкреплением, определяющее, какие изменения действительно улучшают модель.
Алгоритм обучения основан на ReSTEM, который сохраняет только те самоизменения, что повышают качество выполнения заданий.
Результаты и производительность
В тестах SEAL продемонстрировал заметный прирост точности и обобщающих способностей.
- В задаче внедрения новых знаний (на основе набора данных SQuAD) точность ответов выросла с 33,5% до 47%, превзойдя даже результаты GPT-4.1, использующей внешние синтетические данные.
- В обучении с несколькими примерами (few-shot learning) успешность решений выросла с 20% до 72,5%, когда использовалось саморедактирование с подкреплением.
Такая динамика указывает на способность SEAL не только адаптироваться, но и самостоятельно улучшать внутренние представления, приближаясь к моделям, способным к долговременной эволюции.
Преимущества и ограничения
Сильные стороны SEAL:
- автономное создание обучающих данных;
- устойчивость к «застою» после развёртывания;
- способность улучшать себя без внешнего переобучения;
- эффективная адаптация благодаря методу LoRA, снижающему вычислительные затраты.
Основные ограничения:
- риск катастрофического забывания ранее изученных задач;
- высокая вычислительная нагрузка — одно «саморедактирование» требует до 45 секунд;
- необходимость парных данных (контекст–ответ) для корректной работы.
Исследователи отмечают, что интеграция обучения с подкреплением помогает частично решить проблему забывания, а дальнейшие эксперименты направлены на повышение устойчивости и энергоэффективности.
Реакция и значение для отрасли
Публикация вызвала оживлённую дискуссию среди специалистов в X (Twitter).
Пользователь @VraserX назвал SEAL «началом эпохи непрерывного самообучающегося ИИ», а @alex_prompter — «ИскИном, который учится переписывать себя». По их мнению, такие технологии могут лечь в основу будущих систем вроде GPT-6, где модели будут не просто использовать информацию, а поглощать и перерабатывать её.
Следующий шаг: от моделей к агентам
Команда MIT считает SEAL шагом к созданию агентных систем, способных постоянно адаптироваться и учиться на опыте взаимодействия с окружающей средой.
Такие модели смогут перестраивать свои веса после каждого взаимодействия, улучшая поведение без участия человека — особенно важно для сценариев, где данные ограничены или быстро устаревают.
В условиях, когда ресурсы для масштабирования LLM становятся дефицитными, самообучающиеся фреймворки вроде SEAL могут стать ключом к дальнейшему прогрессу ИИ, двигая отрасль за пределы статических моделей и фиксированных наборов данных.
Источник: https://venturebeat.com/ai/self-improving-language-models-are-becoming-reality-with-mits-updated-sea...Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!