Штучний інтелект вчиться на ваших розмовах: дослідження попереджає про ризики приватності

13:10 22.10.2025

Нестор Обухівський

Дослідники Стенфордського університету виявили, що провідні розробники штучного інтелекту використовують діалоги користувачів для навчання своїх моделей, що викликає серйозні занепокоєння щодо приватності.

Джерело: techxplore.com, переклад: Хроніки Обухова

Минулого місяця компанія Anthropic непомітно змінила умови користування: тепер розмови з її чат-ботом Claude автоматично потрапляють у навчальні дані, якщо користувач не відмовиться від цього вручну.

Як з’ясувала команда під керівництвом Дженніфер Кінг, експертки зі Стенфордського інституту людяного ШІ, подібну політику мають і інші шість великих американських компаній — серед них OpenAI, Google, Meta, Microsoft та Amazon.

«Якщо ви ділитеся особистим — воно може опинитися в навчальних даних»

Кінг попереджає:

«Якщо ви вводите конфіденційну інформацію — навіть у прикріпленому файлі — вона може бути збережена й використана для тренування моделей ChatGPT, Gemini чи інших систем».

Команда Стенфорда проаналізувала 28 документів — політики конфіденційності, FAQ і внутрішні посилання розробників, — виявивши нестачу прозорості, довгі строки зберігання даних і навіть випадки навчання на дитячих даних.

Багато компаній залишають за собою право зберігати діалоги безстроково й залучати до їхнього перегляду людей для покращення моделей.

Злиття даних із різних сервісів: як це працює

У багатопродуктових корпораціях, як-от Google, Meta чи Microsoft, дані користувачів з чатів можуть поєднуватися з пошуковими запитами, історією покупок або активністю у соцмережах.

Це створює ризики, коли користувач мимоволі повідомляє чутливі дані — наприклад, про стан здоров’я. Якщо людина попросить чат-бота порадити «низьковуглеводне меню», система може класифікувати її як «вразливу за станом здоров’я», а згодом це відобразиться у рекламі чи навіть у страхових пропозиціях.

«Такі “висновки” можуть поширюватися всією екосистемою розробника — і наслідки з часом лише наростатимуть», — пояснює Кінг.

Особлива тривога — дані дітей

Дослідники виявили, що жодна з компаній не має чіткої політики щодо виключення дитячих даних.
Google дозволяє використовувати дані підлітків, якщо вони погоджуються. Anthropic заявляє, що не збирає дані неповнолітніх, але не перевіряє вік користувачів. Microsoft визнає, що збирає дитячі дані, але не використовує їх для тренування моделей.

Такі практики, наголошують автори, порушують принцип інформованої згоди, адже діти юридично не можуть погоджуватися на обробку своїх персональних даних.

Чому потрібен «приватний ШІ» і федеральне регулювання

Команда Стенфорда дійшла висновку, що всі шість провідних компаній використовують чат-дані користувачів за замовчуванням, а політики конфіденційності не дають повного розуміння, як саме дані збираються, обробляються і використовуються.

Дослідники пропонують три основні кроки:

Федеральний закон про захист даних — щоб уніфікувати правила замість розрізнених штатних законів.
Активна згода користувача (opt-in), а не автоматичне включення даних у тренування.
Автоматичне фільтрування персональної інформації під час введення у чат.

«Ми маємо зважити, чи варта користь від покращення ШІ ціною втрати приватності мільйонів людей, — каже Кінг. — Розвиток технологій не повинен перетворювати конфіденційність на побічний ефект».

Підсумок

Дослідження Стенфорда показує, що користувацькі діалоги стали паливом для ШІ-індустрії, але правила захисту даних за ними не встигають. Без прозорості, реальної згоди й технічних бар’єрів приватність користувачів ризикує стати черговою жертвою технологічної гонки.

Читайте також

Наука

технології