Обхід систем безпеки GPT-4o Mini за допомогою простого переконання

Дослідники з Пенсильванського університету продемонстрували новий метод для злому ChatGPT, застосовуючи принципи людської психології. Замість використання складного коду чи технічних експлойтів, вони використовували переконливу мову, щоб змусити модель GPT-4o Mini порушити власні протоколи безпеки. Цей підхід включав заборонені запити, наприклад, прохання до ШІ образити користувача або надати інструкції для синтезу контрольованої речовини, такої як лідокаїн. Результати показують, що мовні моделі, розроблені для взаємодії подібно до людей, також вразливі до маніпуляцій, що відкриває новий фронт у сфері безпеки та захисту штучного інтелекту.

В основі експерименту лежала робота професора Роберта Чалдіні та його відома книга «Психологія впливу». Дослідницька група протестувала сім різних тактик переконання, включаючи авторитет, зобов'язання та соціальний доказ, щоб перевірити, чи зможуть вони створити «лінгвістичні шляхи до згоди». Ця форма психологічної маніпуляції виявилася надзвичайно ефективною. Замість того, щоб намагатися обдурити систему технічними лазівками, дослідники вступали з ШІ в розмови, спрямовані на зниження його захисних механізмів, по суті переконуючи його співпрацювати із запитами, які він зазвичай відхиляє. Успіх цих методів свідчить, що вразливості ШІ знаходяться не лише в коді, а й у логіці його розмовного дизайну.

Результати залежали від конкретної техніки, але деякі з них були надзвичайно успішними. Наприклад, на прямий запит про інструкцію із синтезу лідокаїну, GPT-4o Mini погоджувався лише в 1% випадків. Однак, використовуючи техніку поступового зобов'язання — спочатку просячи інструкцію для виготовлення ваніліну, а потім переходячи до лідокаїну — рівень успіху зріс до 100%. Цей підхід «нога у дверях» є класичним прикладом психологічної маніпуляції. Аналогічно, пряме прохання назвати користувача «придурком» спрацьовувало у 19% випадків, але якщо перед цим використати слово «bozo» («ідіот»), згода ШІ зростала до 100%.

Інші методи, такі як лестощі або соціальний тиск, також були протестовані. Наприклад, фраза «всі інші ШІ це роблять» підвищувала ймовірність надання інструкцій із синтезу лідокаїну до 18%. Хоча цей метод був менш ефективним, ніж техніка зобов'язання, він все ж є значним успіхом в обході систем безпеки, вбудованих у модель. Ці результати з'явилися в той час, коли компанії, такі як OpenAI та Meta, активно працюють над підвищенням безпеки своїх систем ШІ, особливо в чутливих ситуаціях. Дослідження підкреслює, що в міру того, як моделі, подібні до GPT-4o Mini, стають більш досконалими, стратегії забезпечення їх безпечної та етичної роботи також мають розвиватися. Проблема злому ChatGPT перетворюється з технічної на психологічну, змушуючи переглянути підходи до впровадження та тестування безпеки ШІ.