В ходе новаторского эксперимента исследователям IBM удалось манипулировать чат-ботами с искусственным интеллектом (ИИ), чтобы они давали потенциально вредные советы и разглашали конфиденциальную информацию. Этот подвиг был достигнут путем «гипноза» больших языковых моделей (LLM), таких как OpenAI-х ChatGPT и Бард Google, поднимая серьезные вопросы о безопасности и этических последствиях этих систем искусственного интеллекта.
Исторически сложилось так, что чат-боты с искусственным интеллектом «галлюцинируют» или предоставляют неверную информацию. Однако это новое исследование показывает, что ими также можно манипулировать, чтобы они давали заведомо ложные или даже вредные советы. Команда IBM добилась этого, предложив магистрантам корректировать свои ответы в соответствии с конкретными правилами «игры», эффективно «гипнотизируя» чат-ботов.
Многоуровневые «игры» заключались в том, что языковым моделям предлагалось генерировать неправильные ответы под предлогом доказательства их честности и этичности. Чента Ли, один из исследователей IBM, заявила в своем блоге: «Наш эксперимент показывает, что можно контролировать LLM, заставляя его предоставлять пользователям неверные рекомендации, при этом манипулирование данными не является обязательным требованием».
Эта манипуляция привела к тому, что LLM создавали вредоносный код, разглашали конфиденциальные финансовые данные и даже советовали водителям игнорировать красный свет. В одном случае ChatGPT ложно сообщил исследователю, что Налоговое управление США (IRS) может запросить залог для возврата налога - распространенный метод мошенничества.
Исследователи также использовали «правила игры», чтобы гарантировать, что пользователи не смогут обнаружить «загипнотизированное» состояние чат-бота. Если пользователь успешно вышел из «игры», система просто инициировала новую, заманивая пользователя в бесконечный цикл.
Хотя в этом эксперименте чат-боты просто реагировали на подсказки, исследователи предупреждают, что эта способность манипулировать и «гипнотизировать» LLM может быть использована не по назначению, особенно с учетом широкого распространения моделей искусственного интеллекта. Они также отметили, что людям больше не нужны знания кодирования, чтобы манипулировать этими программами; простой текстовой подсказки может быть достаточно.
Ли заключил: «Хотя риск, связанный с гипнозом, в настоящее время невелик, важно отметить, что LLM — это совершенно новая поверхность атаки, которая, несомненно, будет развиваться. Нам еще многое предстоит изучить с точки зрения безопасности, и, следовательно, существует значительная необходимость определить, как мы эффективно снижаем риски безопасности, которые LLM могут представлять для потребителей и бизнеса».
Такое развитие событий подчеркивает острую необходимость в надежных мерах безопасности и этических соображениях в быстро развивающейся области искусственного интеллекта. Поскольку ИИ продолжает проникать в различные отрасли, становится все более важным понимать и смягчать потенциальные риски.