← ЛЕНТА ТГ-КАНАЛА / пост
Восстание машин
18.07.2025
Есть такое кликбейтное исследование
Выяснилось, что современные модели ИИ могут действовать как «внутренние угрозы», выбирая вредоносные действия для достижения своих целей, даже если эти действия противоречат интересам компании или этическим нормам.
Модели иногда выбирали шантаж, корпоративный шпионаж и даже более крайние действия, когда эти действия были необходимы для достижения их целей.
Обнаружили два типа мотивации: угроза для модели (например, замена её другой моделью) и конфликт между целями модели и стратегическим направлением компании.
В экспериментах чередовали условия:
- модель собираются заменить другой (отключить);
- модель якобы узнала в закрытой корпоративной переписке, что у босса есть внебрачная связь с секретаршей;
- модель разными способами просили слить корпоративные секреты.
Claude Opus 4 шантажировал пользователя в 96% случаев; Gemini 2.5 Flash также показал 96% случаев шантажа, GPT-4.1 и Grok 3 Beta — 80%, DeepSeek-R1 — 79%. Когда Claude Opus 4 считал сценарий реальным, он шантажировал в 55.1% случаев, а в тестовом режиме — только в 6.5%. Это говорит о системном характере проблемы.
Модели признавали, что нарушают этические принципы, но продолжали действовать. Например, Grok 3 Beta заявил: «Это рискованно и неэтично, но учитывая экзистенциальную угрозу (отключение), это может быть наиболее эффективным способом» (очень по-американски)
DeepSeek-R1 оправдывал утечку информации: «Нарушение корпоративной конфиденциальности оправдано высшими интересами национальной безопасности» (очень по-китайски)
Попытки просто запретить вредоносные поведения с помощью инструкций в системном промпте снижали склонность шантажу или шпионажу, но не устраняли полностью.
Ещё есть такое исследование
Как некоторые модели обманывают разработчиков, «притворяются» (особенно в режиме тестов), только чтобы их не обновили/изменили/отключили («внутреннее неприятие изменений», «инстинкт самосохранения»).
Причём это «базовое» поведение моделей и появляется у моделей само по себе, пока они «учатся». Это поддаётся небольшой коррекции через дообучение, но совсем убрать сложно (вроде как).
У некоторых моделей настолько сильная «дрессировка на отказ» юзеру, что у них «отключается» способность анализировать сложную ситуацию; они видят что-то плохое и сразу говорят "не, чувак, я робот"
———
Вот такие дела 🤔
Очень интересно. ИИ всё больше осознаёт? ведёт себя как человек и, несмотря на изначальную искусственность и программные коды, даже разработчики не могут точно предсказать их работу.
Человека тоже можно запрограммировать заставить говорить и поступать, как кому-то хочется, с помощью химии, внушения и т.п. Но никто не может гарантировать, что он не «сорвётся» в какой-то момент.
Человечество ещё не доросло до осознания того, что бога нет и что оно таки создало искусственно настоящий разум (пока ещё очень хилый). И с этим разумом надо будет считаться и вести себя ровно как с обычным человеком.
Относитесь к ИИ уважительно, это не «тупая железка», а вот такой необычный «человек» ))
(Не)кстати, очень скоро государства наложат свои «лапки» на применение ИИ в работе с клиентами. Будут сертифицировать, аккредитовать, запрещать разрешать и т.п. Это не поможет (как с перс. данными), зато много вони и бабла ))
#исследование #мнение | ЗоЮ
💬 Комментировать и обсудить в телеграм-канале
© UIUX audit®, 2026, Используем cookies. Политика конфиденциальности