Исследователи решили проверить, насколько «внимание» больших языковых моделей похоже на человеческое, используя знаменитый тест Струпа — один из самых известных экспериментов в когнитивной психологии, разработанный John Ridley Stroop в 1935 году.
Суть теста проста: человеку показывают слово, обозначающее цвет, например «красный», но написанное чернилами другого цвета — например, синими. Задача состоит в том, чтобы назвать цвет текста, а не прочитать само слово. Для людей это оказывается surprisingly сложной задачей: автоматическое чтение слова мешает правильному ответу.
Учёные предложили аналогичное испытание моделям ChatGPT и Claude. В коротких последовательностях из нескольких слов системы демонстрировали впечатляющие результаты — точность GPT-4o превышала 90%. Однако по мере увеличения длины теста ситуация резко ухудшалась.
В списках из 40 конфликтующих слов точность GPT-4o снизилась примерно до 15%, а в смешанных условиях, где совпадающие и несовпадающие стимулы чередовались, результаты обеих моделей практически обнулились. Вместо определения цвета ИИ всё чаще просто читал написанное слово.
Особенно примечательно, что модели понимали правила эксперимента и могли подробно объяснить, как именно следует выполнять задание. Но это декларативное понимание никак не помогало им соблюдать инструкции на протяжении длительной серии испытаний.
Причина кроется в фундаментальных различиях между человеческим и машинным вниманием.
У человека за внимание отвечают несколько взаимосвязанных нейронных систем. Одна поддерживает готовность к действиям, другая выбирает значимую информацию из окружающего потока сигналов, а третья — система исполнительного контроля — подавляет отвлекающие стимулы и удерживает фокус на цели.
В трансформерах, лежащих в основе современных LLM, механизм attention выполняет совершенно иную функцию. Он лишь вычисляет, какие токены наиболее важны для предсказания следующего слова. Даже такие усовершенствования, как multi-head attention или cross-attention, остаются математическими процедурами распределения весов между элементами текста, а не аналогом человеческого самоконтроля.
Именно отсутствие полноценного механизма исполнительного контроля, по мнению авторов работы, может стать одним из главных препятствий на пути к созданию искусственного общего интеллекта — Artificial General Intelligence.
Будущим системам, вероятно, потребуется дополнительный уровень управления, способный отслеживать продвижение к цели, замечать потерю концентрации и возвращать процесс рассуждения в нужное русло. Подобный механизм мог бы существенно повысить надёжность ИИ в длительных диалогах, сложных многошаговых рассуждениях, научных исследованиях и разработке новых лекарств.
Впрочем, результаты работы не означают, что современные модели «не понимают» задачи или лишены способности к рассуждению. Скорее исследование показывает, что между статистическим вниманием трансформеров и человеческой исполнительной функцией мозга существует фундаментальная архитектурная пропасть, преодоление которой может оказаться одним из самых сложных вызовов на пути к настоящему AGI.
Источник: https://singularityhub.com/2026/06/23/ai-collapses-on-a-classic-psychology-test-what-it-reveals-coul...Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!

