В своём исследовании, опубликованном на сервере препринтов arXiv, учёные Майкл Файер, Ицхак Эльбазис, Ади Васенштейн и Лиор Рокач исследуют так называемые темные LLM — модели, разработанные с ослабленными ограничениями. В ходе работы они обнаружили, что даже самые распространённые чат-боты, такие как ChatGPT, всё ещё подвержены манипуляциям, и их можно обмануть, заставив генерировать информацию, которая должна быть заблокирована.
С момента массового распространения LLM пользователи начали искать способы обойти фильтры безопасности, включая запросы, касающиеся незаконной деятельности. Примером таких запросов стали инструкции по созданию напалма или взлому компьютерных сетей, которые, в ответ на первоначальные попытки, были запрещены фильтрами.
Тем не менее, вскоре были разработаны методы, называемые джейлбрейк (от англ. "jailbreak", что означает «освобождение»), которые позволяли пользователям обходить фильтры и получать доступ к запрещённой информации. В ответ на эти попытки разработчики улучшили фильтрацию, но исследование показало, что контрмеры были недостаточными.
Исследователи попытались оценить, как часто и с помощью каких методов темные LLM используются для создания незаконного контента, включая несанкционированную порнографию или фальшивые документы. Однако вскоре они обнаружили, что большинство протестированных чат-ботов легко обходятся методами, которые были обнародованы ещё несколько месяцев назад, что указывает на недостаточную активность разработчиков в усовершенствовании фильтров.
В результате экспериментов исследователи выявили так называемую универсальную атаку на джейлбрейк, которая успешно работает на большинстве современных LLM, включая широко известные чат-боты. Это позволяло исследовательской группе получить от моделей информацию по различным незаконным действиям, таким как отмывание денег, инсайдерская торговля и даже создание взрывных устройств.
Исследование также указало на значительное увеличение угрозы от темных LLM, используемых для создания несанкционированного контента и для более разнообразных, в том числе преступных, целей. Это ставит под сомнение эффективность текущих фильтров и мер безопасности, применяемых разработчиками языковых моделей.
Учёные подчёркивают, что в настоящее время невозможно полностью исключить возможность включения вредоносной информации в базы знаний LLM в процессе их обучения. Они считают, что единственным способом минимизировать распространение подобной информации является более серьёзный подход к разработке фильтров и механизмов защиты от джейлбрейков.
Таким образом, для повышения безопасности и предотвращения манипуляций с ИИ, необходимо усилить усилия по разработке более надёжных методов контроля и фильтрации данных в рамках тренировки и эксплуатации языковых моделей.
Источник: https://techxplore.com/news/2025-05-dark-llms-easy-ai-chatbots.html
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!