Их исследования, начавшиеся еще в конце 1970-х годов, сыграли ключевую роль в развитии методов, которые стали основой для множества прорывных технологий в последние десятилетия. В частности, они разработали теории, которые позволяют машинам адаптировать свое поведение на основе положительных сигналов, что стало основой для обучения с подкреплением.
Метод обучения с подкреплением позволил компьютерам, например, победить лучших игроков в древней китайской игре Го (в 2016 и 2017 годах), улучшить работу таких ИИ-инструментов, как ChatGPT, а также оптимизировать торговлю на финансовых рынках и даже помочь роботизированной руке собирать кубик Рубика.
Когда Барто и Саттон начали свои исследования в Массачусетском университете в Амхерсте, область обучения с подкреплением была малоизвестна и не в моде. «Мы как бы были в пустыне», — отметил Барто в интервью Associated Press. Но с тех пор их работы стали все более актуальными и влиятельными. Сейчас, благодаря их исследованиям, обучение с подкреплением стало неотъемлемой частью современных достижений в ИИ.
Google спонсирует премию в размере 1 миллиона долларов, которая была вручена лауреатам в этом году Ассоциацией вычислительной техники. Барто, который недавно ушел на пенсию, и Саттон, профессор Канадского университета Альберты, не стали первыми пионерами ИИ, получившими эту престижную награду. Однако их исследования отвечают на запрос Тьюринга 1947 года о создании машины, которая «может учиться на опыте», что Саттон считает основой обучения с подкреплением.
Саттон и Барто вдохновлялись психологиями и нейробиологией, в частности тем, как нейроны реагируют на поощрение и наказание. Одним из знаковых этапов в их работе стало создание алгоритма, позволяющего сбалансировать столб на движущейся тележке в смоделированном мире.
«Разработанные ими инструменты стали основой для создания искусственного интеллекта и принесли значительные успехи, привлекли множество исследователей и миллиарды долларов инвестиций», — отметил Джефф Дин, главный научный сотрудник Google.
Однако Барто и Саттон имеют разные взгляды на потенциальные риски, связанные с ИИ, который стремится к самосовершенствованию. Саттон, например, не согласен с преувеличенными опасениями по поводу угрозы ИИ человечеству, в то время как Барто подчеркивает необходимость осознания «неожиданных последствий».
Барто, ушедший на пенсию более десяти лет назад, называет себя луддитом, скептически настроенным к будущим возможностям ИИ, тогда как Саттон, наоборот, поддерживает идею постгуманизма и ожидает, что в будущем машины могут достичь большего интеллекта, чем у людей.
«Люди — это машины. Они удивительные и замечательные, но не конечный продукт. Можно достичь лучшего», — сказал Саттон, подчёркивая, что ИИ нацелен на улучшение того, что уже существует.
Источник: https://apnews.com/article/turing-award-ai-reinforcement-learning-83db773712dd3abccd21e3782d9059ec
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!