«Мы рады, что создали тест, который на самом деле сложен», — заявил Конвински. Он подчеркнул, что бенчмарки должны быть сложными, чтобы иметь значение, и отметил, что K Prize отличается от тестов, проводимых крупными лабораториями, поскольку он ориентирован на небольшие и открытые модели и ограничен в вычислительных ресурсах.
Конвински пообещал выделить 1 миллион долларов первой модели с открытым исходным кодом, которая сможет набрать более 90% баллов в тесте.
K Prize, подобно SWE-Bench, проверяет модели на наличие проблем, отмеченных на GitHub, чтобы оценить их способность решать реальные задачи программирования. Однако в отличие от SWE-Bench, K Prize разработан как «свободная от загрязнения версия», использующая систему входа по времени. Это означает, что модели не могут тренироваться на задачах, которые включены в тест. Для первого раунда модели должны были быть готовы к 12 марта, а тест был создан на основе проблем, отмеченных на GitHub после этой даты.
Результат победителя — 7,5% — резко контрастирует с показателями SWE-Bench, где лучшие модели достигают 75% в «Проверенном» тесте и 34% в «Полном» тесте. Конвински пока не уверен, связано ли это различие с загрязнением данных в SWE-Bench или с трудностями сбора новых данных с GitHub, но он ожидает, что K Prize поможет разобраться в этом вопросе в будущем.
«По мере того, как мы будем проводить больше прогонов, у нас будет лучшее понимание, — сказал он TechCrunch, — потому что мы ожидаем, что люди будут адаптироваться к динамике конкуренции каждые несколько месяцев».
Хотя низкие результаты могут показаться неожиданными на фоне широкого распространения ИИ-инструментов для программирования, многие эксперты считают такие проекты, как K Prize, необходимым шагом в решении проблемы оценки ИИ. Исследователь из Принстона Саяш Капур отметил, что создание новых тестов для существующих бенчмарков — важный шаг вперед.
Для Конвински K Prize — это не только лучший эталон, но и открытый вызов индустрии. «Если вы прислушаетесь к шумихе, то увидите, как будто мы уже должны видеть врачей ИИ, юристов ИИ и инженеров-программистов ИИ, но это просто неправда», — говорит он.
Источник: https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-the...Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!