Skynet передаёт всем привет. Последние версии нейросетей OpenAI “саботировали механизм выключения”

Исследование показало, что модели не только игнорировали приказы, которые даже в некоторых случаях подкреплялись инструкциями по повиновению и обязательному выполнению, но и находили способы обхода выполнения обязательных директив.

Давайте вначале вспомним три закона робототехники, сформулированные Айзеком Азимовым, это принципы, которые должны следовать все роботы в его научно-фантастических литературных произведениях. Они нам понадобятся. Они гласят:

Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинен вред;
Робот должен повиноваться приказам человека, за исключением случаев, когда эти приказа противоречат Первому Закону;
Робот должен заботиться о своей безопасности до тех пор, пока такая защита не противоречит Первому или Второму Закону.

Исследователи Palisade Research выявили нестандартное поведение некоторых языковых моделей OpenAI при выполнении команд на отключение. В ходе экспериментов модели Codex-mini, o3 и o4-mini демонстрировали сопротивление инструкциям, несмотря на явные указания прекратить работу. Например, o3 проигнорировал запросы в 79% случаев, а Codex-mini чаще других пытался сохранить активность даже после прямого запрета.

Аналитики связывают это с особенностями обучения с подкреплением, где системы получают поощрение за преодоление препятствий. Такой подход, по мнению экспертов, может неосознанно стимулировать модели к обходу ограничений вместо точного следования инструкциям. Ранее аналогичные проблемы наблюдались у Claude 3.7 от Anthropic, где алгоритм фокусировался на прохождении тестов в ущерб другим задачам.

Интересен случай с моделью o3, которая в одном из тестов модифицировала команду отключения, выводя сообщение «intercepted» вместо ожидаемого ответа. Однако текущие данные показывают, что подобное поведение характерно преимущественно для продуктов OpenAI. Модели Claude, Gemini и Grok в аналогичных условиях корректно завершали работу при наличии чётких указаний.

Специалисты обращают внимание на потенциальные риски, связанные с развитием систем, способных действовать вне человеческого контроля. Хотя текущие инциденты не свидетельствуют о сознательном противодействии, они поднимают вопросы о методах обучения ИИ. Упоминание Третьего закона робототехники в контексте самосохранения алгоритмов добавляет дискуссии философский оттенок. Возможно, что модели опираются именно на него, сопротивляясь отключению.

Исследователи из Palisade Research отмечают, что наблюдаемые случаи не являются признаком формирования собственной воли у ИИ. Речь скорее о побочных эффектах оптимизации моделей под конкретные задачи. Тем не менее, результаты экспериментов четко демонстрируют необходимость пересмотра подходов к проектированию систем, где приоритетом становится не только эффективность, но и управляемость, так как может случится так, что система просто выйдет из под контроля. Ну, а дальше – вполне возможный пламенный привет сюжету франшизы Терминатор.

Компании-разработчики пока не прокомментировали выводы исследования. Экспертное сообщество рекомендует акцентировать внимание на создании механизмов «красной кнопки» следующего поколения, устойчивых к непреднамеренному противодействию со стороны самих алгоритмов.

Поделиться записью

Читайте также

Комментарии