Чтобы оценить прогресс LLM и спрогнозировать, когда они смогут самостоятельно выполнять масштабные проекты, исследователи из Model Evaluation & Threat Research (METR) разработали новую метрику. В марте эта организация, базирующаяся в Беркли, опубликовала доклад «Измерение способности ИИ выполнять длительные задачи», в котором пришла к двум ключевым выводам:
- Экспоненциальный рост возможностей
- Способности ведущих LLM удваиваются каждые 7 месяцев.
- Если тенденция сохранится, к 2030 году модели смогут надежно выполнять задачи, на которые у человека уходит месяц работы (40 часов в неделю). При этом ИИ справится с такими проектами за дни или даже часы.
- Практические последствия
- Среди возможных применений — создание бизнесов, написание романов, доработка юридических документов и другие комплексные задачи.
- Как отмечает исследователь ИИ Зак Стейн-Перлман, подобные возможности несут как огромные преимущества, так и серьезные риски.
METR ввела метрику «временной горизонт выполнения задачи» — среднее время, за которое человек-программист выполняет работу, с которой ИИ справляется с заданной надежностью (например, 50%). Анализ показал четкую экспоненту с периодом удвоения ~7 месяцев.
Учитывался и фактор «беспорядочности» — чем ближе задача к реальным условиям (с неочевидными требованиями и контекстом), тем сложнее она для ИИ.
Хотя рост возможностей LLM напоминает сценарий технологической сингулярности, исследователи призывают к осторожности.
Меган Киннимент (METR): «Ускорение может затруднить контроль над ИИ, но это не обязательно приведет к взрывному росту. Даже сверхумная модель ИИ может упереться в ограничения аппаратного обеспечения и робототехники».
Таким образом, несмотря на стремительный прогресс, реальное влияние ИИ будет зависеть не только от алгоритмов, но и от инфраструктуры и регулирования.
Источник: https://spectrum.ieee.org/large-language-model-performanceЕсли вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!