
Источник: techxplore.com, перевод: Хроники Обухова
В прошлом месяце компания Anthropic незаметно изменила условия пользования: теперь разговоры с ее чат-ботом Claude автоматически попадают в учебные данные, если пользователь не откажется от этого вручную.
Как выяснила команда под руководством Дженнифер Кинг, эксперта из Стэнфордского института человечного ИИ, подобную политику имеют и другие шесть крупных американских компаний - среди них OpenAI, Google, Meta, Microsoft и Amazon.
Кинг предупреждает:
"Если вы вводите конфиденциальную информацию - даже в прикрепленном файле - она может быть сохранена и использована для тренировки моделей ChatGPT, Gemini или других систем".
Команда Стэнфорда проанализировала 28 документов - политики конфиденциальности, FAQ и внутренние ссылки разработчиков, - обнаружив недостаток прозрачности, долгие сроки хранения данных и даже случаи обучения на детских данных.
Многие компании оставляют за собой право хранить диалоги бессрочно и привлекать к их просмотру людей для улучшения моделей.
В многопродуктовых корпорациях, таких как Google, Meta или Microsoft, данные пользователей из чатов могут объединяться с поисковыми запросами, историей покупок или активностью в соцсетях.
Это создает риски, когда пользователь невольно сообщает чувствительные данные - например, о состоянии здоровья. Если человек попросит чат-бота посоветовать "низкоуглеводное меню", система может классифицировать его как "уязвимого по состоянию здоровья", а впоследствии это отразится в рекламе или даже в страховых предложениях.
"Такие "выводы" могут распространяться по всей экосистеме разработчика - и последствия со временем будут только нарастать", - объясняет Кинг.
Исследователи обнаружили, что ни одна из компаний не имеет четкой политики по исключению детских данных.
Google разрешает использовать данные подростков, если они соглашаются. Anthropic заявляет, что не собирает данные несовершеннолетних, но не проверяет возраст пользователей. Microsoft признает, что собирает детские данные, но не использует их для тренировки моделей.
Такие практики, отмечают авторы, нарушают принцип информированного согласия, ведь дети юридически не могут соглашаться на обработку своих персональных данных.
Команда Стэнфорда пришла к выводу, что все шесть ведущих компаний используют чат-данные пользователей по умолчанию, а политики конфиденциальности не дают полного понимания, как именно данные собираются, обрабатываются и используются.
Исследователи предлагают три основных шага:
Федеральный закон о защите данных - чтобы унифицировать правила вместо разрозненных штатных законов.
Активное согласие пользователя (opt-in), а не автоматическое включение данных в тренировку.
Автоматическая фильтрация персональной информации при вводе в чат.
"Мы должны взвесить, стоит ли польза от улучшения ИИ цены потери приватности миллионов людей, - говорит Кинг. - Развитие технологий не должно превращать конфиденциальность в побочный эффект".
Исследование Стэнфорда показывает, что пользовательские диалоги стали топливом для ИИ-индустрии, но правила защиты данных за ними не поспевают. Без прозрачности, реального согласия и технических барьеров приватность пользователей рискует стать очередной жертвой технологической гонки.