Результаты исследования уже привлекают внимание в научном сообществе и могут стать основой для внедрения ИИ в сервисную, бытовую и образовательную робототехнику. О разработке сообщает пресс-служба AIRI.
От распознавания к пониманию
Современные системы искусственного интеллекта уже умеют распознавать объекты на изображениях, но часто не понимают, как они связаны между собой и как соотносятся с задачей пользователя. Например, робот должен не просто увидеть чашку, но и понять, что она стоит на столе, рядом с ноутбуком, наполнена жидкостью и, возможно, её нужно убрать.
«Сейчас мы работаем над интеграцией метода в реальные робототехнические платформы. Важно, чтобы робот не просто распознавал окружающие предметы, но и понимал, как объекты соотносятся друг с другом и с задачами пользователя. Такие навыки критичны для сервисных, образовательных и бытовых роботов следующего поколения», — пояснил Дмитрий Юдин, ведущий научный сотрудник AIRI.
Как это работает?
Учёные обучили две популярные языковые модели — Vicuna-v1.5 и LLAMA3 — на обширных наборах данных, включающих:
- Точные 3D-реконструкции реальных помещений (кухни, офисы, мастерские);
- Детальные текстовые описания к этим сценам, включая запросы вроде «Найди чашку, в которой остался кофе» или «Где лежит отвёртка, которую я использовал вчера?».
Благодаря такому подходу модели научились учитывать:
- Пространственное расположение объектов («над», «под», «между»);
- Относительные размеры («больше чем», «меньше коробки»);
- Семантический контекст («чашка для кофе», «инструмент на верстаке»).
Преимущества перед существующими решениями
Разработанный метод показал впечатляющие результаты:
- Более чем на 10% превосходит традиционные системы 3D-зрения, не использующие языковые модели;
- На 7% точнее распознаёт объекты по текстовому описанию по сравнению с методом Chat-Scene;
- По эффективности сопоставим с передовым решением GPT4Scene, но в 2–4 раза быстрее обрабатывает запросы за счёт применения специальных алгоритмов сжатия данных.
Работа на борту: ИИ в роботе, а не в облаке
Особое преимущество разработки — её высокая вычислительная эффективность. Метод позволяет использовать LLM с меньшим количеством параметров, которые можно запускать локально, на бортовом компьютере робота, оснащённом GPU и достаточным объёмом памяти. Это критически важно для:
- Автономной работы без зависимости от интернета;
- Быстрого реагирования на команды;
- Обеспечения конфиденциальности данных пользователя.
Перспективы
В ближайшее время исследователи планируют интегрировать технологию в реальные робототехнические платформы. В долгосрочной перспективе это может привести к появлению:
- Домашних помощников, понимающих контекст и способных выполнять сложные поручения;
- Образовательных роботов, объясняющих и взаимодействующих с учениками в трёхмерной среде;
- Логистических систем, способных адаптироваться к динамично меняющимся условиям на складах и в офисах.
Таким образом, российские учёные не просто улучшили взаимодействие ИИ с 3D-миром — они приблизили момент, когда роботы станут по-настоящему «понимающими» участниками нашей повседневной жизни.
Источник: https://nauka.tass.ru/nauka/24700247
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!