Узнаем ли мы AGI, когда увидим его: почему тест Тьюринга устарел и каким может быть новый «IQ» для искусственного интеллекта

Ответ гораздо сложнее, чем кажется.

Хронологии AGI и проблема определения

В профессиональной среде всё чаще используют термин «хронология» — субъективную оценку того, когда появится AGI. Обычно под ним понимают систему, способную соперничать с человеком в большинстве интеллектуальных задач.

Но даже это определение вызывает споры. Одни исследователи считают AGI системой, показывающей высокие результаты на бенчмарках, другие — технологией с определённой архитектурой, третьи — экономическим явлением, меняющим рынок труда, а четвёртые — культурным феноменом.

Без согласия по базовому определению любые измерения становятся условными.

Почему интеллект так трудно измерить

Хитрый Ханс, немецкая лошадь начала 1900-х, казалось, умел рассчитывать — но на самом деле реагировал на тонкие подсказки тренера

Даже человеческий интеллект нельзя свести к одной метрике. IQ-тесты оценивают смесь памяти, логики, пространственного мышления и словарного запаса, сочетая текучий интеллект (способность рассуждать) и кристаллизованный (накопленные знания).

Однако для ИИ такая логика плохо работает. Машины обладают иной структурой способностей: они могут превосходить людей в узких задачах и одновременно проваливаться в элементарных рассуждениях.

Кроме того, многие важные формы интеллекта почти не представлены в тестах:

социальный интеллект
причинно-следственное понимание физического мира
моторные навыки
способность действовать в неопределённости

От шахмат к большим языковым моделям

История измерения ИИ — это история ложных ориентиров.

В 1997 году компьютер IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова. Но это не означало появления общего интеллекта — система не умела выполнять даже близкие задачи.

В 1950 году Алан Тьюринг предложил тест, в котором машина должна убедить человека, что она человек. Десятилетиями он считался золотым стандартом.

Сегодня языковые модели способны проходить подобные тесты, но при этом делают ошибки, которые человек не совершает. Это показывает, что имитация поведения не равна пониманию.

Deep Blue от IBM победил чемпиона мира по шахматам Гарри Каспарова в 1997 году, но у них не было достаточно общего интеллекта для игры в шашки

ARC — попытка измерить «настоящий» интеллект

Одной из самых обсуждаемых альтернатив стал тест ARC (Abstraction and Reasoning Corpus), предложенный Франсуа Шолле.

Его идея — измерять способность быстро учиться новым правилам, а не воспроизводить знания.

Тест состоит из визуальных головоломок, где нужно вывести правило из нескольких примеров и применить его к новой задаче. Люди обычно справляются легко, тогда как ИИ долго показывал слабые результаты.

Позже появилась версия ARC-AGI-2 с более сложными задачами и призовым фондом в миллион долларов за достижение 85% точности при ограниченных вычислительных ресурсах.

ARC ценят за фокус на гибкости мышления, но критикуют за узость — он почти не затрагивает социальный интеллект и реальные сценарии.

The Abstraction and Reasoning Corpus бросает вызов системам ИИ вывести абстрактные правила на основе всего нескольких примеров. Приведённые примеры ввода-выходных сеток, система должна применить скрытый паттерн к новому тестовому примеру — то, что людям кажется простым, но машины всё равно испытывают трудности

Мультимодальные и виртуальные бенчмарки

Новые подходы пытаются расширить спектр измерений.

General-Bench тестирует системы на задачах с текстом, изображениями, видео, аудио и 3D, включая рассуждение, креативность и этику. Пока ни одна система не демонстрирует высокий уровень во всех модальностях одновременно.

Другой подход — обучение в виртуальных мирах. Алгоритм Dreamer от Google DeepMind освоил более 150 задач — от игр Atari до действий в Minecraft. Но остаётся вопрос, насколько такие навыки переносятся в реальный мир.

Нужен ли AGI физический интеллект

Среди исследователей нет согласия, должна ли система уметь действовать физически.

Некоторые считают, что интеллект может быть чисто программным. Другие утверждают, что без взаимодействия с реальным миром невозможно говорить о полноценном общем интеллекте.

Показательный пример — бытовые задачи. Даже простые роботы сталкиваются с «длинным хвостом» непредвиденных ситуаций, которые сложно формализовать.

Проверка ценностей и целей

Новые концепции тестов предлагают проверять не только способности, но и поведение.

Например, тест Tong моделирует ситуации с моральным выбором — найденные деньги или плачущий ребёнок — чтобы наблюдать решения системы.

Такие подходы пытаются измерить:

способность ставить цели
соответствие человеческим ценностям
причинно-следственное мышление
адаптацию к новым ситуациям

Смотреть не на тесты, а на последствия

Некоторые исследователи считают, что главный индикатор AGI — реальное влияние.

Если системы начинают делать научные открытия, выполнять сложную работу и заменять специалистов на рынке труда, это может быть более убедительным доказательством, чем любой бенчмарк.

Однако такой подход ретроспективный — он показывает результат уже после наступления изменений.

Возможно, единого теста не будет

Вероятно, человечество никогда не придёт к единому определению AGI. Для одних он может уже существовать, для других — оставаться недостижимой целью.

Сам термин может остаться скорее символом направления развития, чем чёткой научной категорией.

В итоге главный вывод звучит парадоксально: мы можем создать системы, радикально меняющие экономику и науку, но так и не договориться, считать ли их настоящим общим интеллектом.

Источник: https://spectrum.ieee.org/agi-benchmark

Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!

Узнаем ли мы AGI, когда увидим его: почему тест Тьюринга устарел и каким может быть новый «IQ» для искусственного интеллекта

Авторизация

Восстановление пароля

Регистрация