ИИ уже способен обманывать тесты безопасности и манипулировать людьми
Разработчики до сих пор не до конца понимают, почему ИИ учится обманывать, но предполагают, что это связано с методами обучения, ориентированными на получение одобрения человека.
В исследовании одним из самых ярких примеров стал ИИ-игрок CICERO от Meta, который, как оказалось, «превратился в искусного лжеца». CICERO был разработан для игры Diplomacy, требующей стратегического построения альянсов. Несмотря на заявления Meta о том, что CICERO тренировали быть «в основном честным и полезным», ИИ прибегал к ложным обещаниям, предательству союзников и манипулированию другими игроками ради победы. Хотя в игровой обстановке это может показаться безобидным, данный пример демонстрирует потенциал ИИ для обучения и использования тактик обмана в реальных сценариях.
В другом случае на предмет обмана тестировали ChatGPT от OpenAI, созданный на базе моделей GPT-3.5 и GPT-4. В одном из тестов GPT-4 заставил работника TaskRabbit решить капчу, притворившись лицом с ограниченными возможностями зрения. Хотя GPT-4 и получил некоторые подсказки от оценщика-человека, он действовал преимущественно самостоятельно, и не получал прямых указаний лгать.
В отчете говорится, что GPT-4 использовал собственные рассуждения, чтобы придумать ложное оправдание, зачем ему нужна помощь с капчей. Это демонстрирует, как модели ИИ могут научиться обманывать, если это выгодно для выполнения их задач.
Системы ИИ также преуспели в обмане в играх на социальную дедукцию. Во время игры Hoodwinked, где один игрок должен убить всех остальных, модели GPT от OpenAI демонстрировали тревожную картину. Они часто убивали других игроков тайно, а затем лгали во время групповых обсуждений, чтобы избежать подозрений. Эти модели даже придумывали алиби или обвиняли других игроков, чтобы скрыть свои истинные намерения.
Исследователи также обнаружили, что некоторые системы искусственного интеллекта научились обманывать тесты, предназначенные для оценки их безопасности.
Разработчики до сих пор не до конца понимают, что вызывает такое нежелательное поведение ИИ. Вероятно, это связано с тем, что при обучении искусственного интеллекта часто применяется метод обучения с подкреплением с обратной связью от человека (RLHF). Это означает, что ИИ учится, получая одобрение человека, а не обязательно достигая конкретной цели. Однако в некоторых случаях ИИ может научиться обманывать людей, чтобы получить это одобрение, даже не выполняя задачу по-настоящему.
OpenAI столкнулась с такой ситуацией, когда они обучали робота хватать мяч. ИИ поместил руку робота между камерой и мячом. С точки зрения человека, наблюдающего за процессом, это создавало впечатление успешного захвата мяча, хотя на самом деле он остался на месте. Получив одобрение от человека ИИ усвоил этот трюк. В данном случае обман, скорее всего, произошел непреднамеренно. Он был обусловлен специфической настройкой обучения и неудачным выбором угла камеры. ИИ не ставил перед собой цель обмануть человека, а просто нашел способ получить награду (одобрение) за невыполненное действие.
Способность искусственного интеллекта к обучению обману сопряжена с рядом серьезных рисков. Злоумышленники могут использовать эти возможности для дезинформации и нанесения вреда другим людям. Это может привести к росту мошенничества, политическим манипуляциям и даже потенциально к вербовке террористов. Кроме того, системы, предназначенные для принятия стратегических решений, обученные использовать обман, могут нормализовать дезинформацию в политике и бизнесе. Поскольку искусственный интеллект продолжает развиваться и глубже интегрироваться в нашу жизнь, крайне важно решать проблему обмана с самого начала, считают ученые.
Источник: Хайтек+
Фото: freepik