Люди без труда вспоминают, где оставили тот или иной предмет, связывая объекты с конкретным местом и временем. Для роботов такая способность до сих пор оставалась серьёзной проблемой. Большинство существующих систем либо строят подробные трёхмерные карты помещений, либо умеют распознавать и описывать отдельные объекты, но не объединяют эти возможности в единую память.
Команда под руководством профессора MIT Луки Карлоне предложила систему Describe Anything, Anywhere, Anytime, Any Moment (DAAAM), которая объединяет технологии компьютерного зрения и роботизированного картографирования. По словам исследователей, новый подход фактически создаёт для роботов аналог пространственно-временной памяти человека.
«Мы хотим получить нечто вроде ChatGPT, но укоренённое в физическом мире и способное отвечать на вопросы об окружающей среде, например: “Где я оставил кошелёк?”», — пояснил Карлоне.
Во время перемещения робот фиксирует объекты, формирует их подробные описания и привязывает полученную информацию к конкретным координатам на трёхмерной карте. Так, система может запомнить, что возле здания Stata Center на территории MIT находится велостойка, на которой стоит красный велосипед со спущенным колесом.
Главной проблемой подобных систем всегда была скорость. Современным алгоритмам требуются секунды для обработки нескольких объектов, тогда как за короткое время робот может встретить сотни предметов. Чтобы решить эту проблему, разработчики применили механизм отбора ключевых кадров, содержащих наиболее информативные изображения сразу нескольких объектов. Такой подход позволил ускорить обработку примерно в десять раз и обеспечить работу в режиме реального времени.
Дополнительную роль играет большая языковая модель, которая получает доступ к базе данных объектов через набор специализированных инструментов поиска. Это позволяет уменьшить количество галлюцинаций и быстро находить нужную информацию. Например, при запросе о скульптуре возле определённого корпуса система может использовать семантический поиск или ориентироваться на пространственное расположение объектов.
Испытания показали, что DAAAM превосходит существующие методы по точности на 21–53 % в зависимости от типа вопросов. По словам ведущего автора исследования Николаса Горло, архитектура создаёт фундамент для универсальных роботов, которые смогут выполнять широкий круг задач по запросу человека.
В дальнейшем исследователи планируют научить систему фиксировать не только объекты, но и значимые события, происходящие в окружающей среде, а также добавить механизм оценки уверенности в ответах.
Помимо робототехники, технология может найти применение в системах дополненной реальности, помогая техническим специалистам обнаруживать неисправности оборудования, а также использоваться в навигационных сервисах и интеллектуальных системах сопровождения.
Работа была представлена на конференции CVPR и частично финансировалась Лабораторией исследований армии США и Управлением военно-морских исследований. В MIT рассчитывают, что подобные пространственные воспоминания станут одним из ключевых элементов будущих универсальных ИИ-агентов, способных взаимодействовать с реальным миром так же естественно, как это делают люди.
Источник: https://news.mit.edu/2026/could-ai-tell-you-where-you-left-your-keys-0617
Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!

