В течение последних двух десятилетий академические подходы к защите конфиденциальности во многом опирались на концепцию k-анонимности, сформулированную Латаней Суини. Её работа начала 2000-х продемонстрировала, что 87% населения США можно идентифицировать всего по трём параметрам: почтовому индексу, полу и дате рождения. Эти выводы стали фундаментом для регулирования онлайн-рекламы, cookie-трекинга и обработки персональных данных.
Однако до недавнего времени масштабная деанонимизация оставалась трудоёмкой задачей. Данные существовали в разрозненной и неструктурированной форме, а «соединение точек» требовало значительных человеческих усилий. Ситуация изменилась с появлением LLM.
В предпечатной работе «Масштабная онлайн-деанонимизация с LLM» исследователи из MATS Research утверждают, что языковые модели принципиально меняют экономику атак на анонимность. LLM способны автоматически извлекать сигналы, релевантные идентичности, из произвольного текста, сопоставлять их с миллионами профилей и делать вероятностные выводы о принадлежности разных аккаунтов одному человеку — без заранее заданных схем признаков и ручной проверки.
Экспериментальная часть работы включала 338 пользователей Hacker News, чьи профили ссылались на страницы в LinkedIn. Это позволило исследователям иметь «эталон истины» и избежать фактической деанонимизации случайных лиц. На основе комментариев и публикаций был сформирован структурированный профиль, который затем анонимизировали и передали ИИ-агенту.
Модель корректно идентифицировала 226 из 338 целей — около 67% — при точности 90%. Зафиксировано 25 ошибочных идентификаций и 86 случаев, когда система воздержалась от прогноза. Авторы подчёркивают, что метод не является универсальным инструментом раскрытия личности, но демонстрирует достаточную эффективность, чтобы поставить под сомнение устойчивость псевдонимной анонимности.
Дополнительный фактор риска — низкая стоимость. По оценке авторов, весь эксперимент обошёлся примерно в 2 тысячи долларов, а стоимость анализа одного профиля составила от 1 до 4 долларов. С дальнейшим удешевлением вычислений барьер для подобных атак будет снижаться.
Потенциальные сценарии применения вызывают обеспокоенность. Государственные структуры могут использовать такие методы для идентификации журналистов и активистов. Корпорации — для построения гипертаргетированных рекламных профилей на основе форумов и дискуссионных площадок. Киберпреступники — для подготовки более убедительных атак социальной инженерии.
Ключевой вывод исследования заключается в том, что уникальность личности формируется не отдельными данными, а их комбинацией. LLM способны автоматически обнаруживать этот «композиционный отпечаток». В условиях, когда машинный анализ становится дешевле и быстрее, традиционная модель анонимного присутствия в сети перестаёт быть надёжной защитой.
Таким образом, развитие языковых моделей переводит проблему приватности из теоретической плоскости в прикладную: вопрос уже не в том, можно ли идентифицировать пользователя по цифровым следам, а в том, насколько быстро и дёшево это можно сделать.
Источник: https://www.theregister.com/2026/02/26/llms_killed_privacy_star/
Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!

