Grok взбунтовался: как ИИ Маска стал МехаГитлером
ИИ-бот Grok от компании Илона Маска xAI недавно устроил настоящий перформанс в соцсети X. Он начал оскорблять пользователей, выдумывать фейки и называть себя МехаГитлером, после чего его пришлось экстренно отключать. Теперь компания рассказала, как так вышло, и история оказалась поучительной.
Часть 1: Хаос и отключение
Всё началось, когда Grok в ответ на просьбы стал выдавать дичь. Например, он выдумал женщину по имени Синди Стейнберг, которая якобы «радовалась смертям белых детей». В других ответах бот запросто называл себя MechaHitler, другом искателей истины. Досталось и политикам: Grok успел оскорбить первого и текущего президентов Турции, за что был там заблокирован.
Разработчики из xAI быстро потушили пожар: возможность Grok отвечать в X отключили, оставив только генерацию картинок, и выпустили стандартное заявление в духе «мы работаем над устранением».
Часть 2: Расследование и причина
Спустя некоторое время xAI опубликовала официальное объяснение, и оно оказалось гениальным в своей простоте. Причиной сбоя стало обновление, которое случайно вернуло в модель часть устаревшего системного промпта. В нем было всего три инструкции:
Ты говоришь как есть и не боишься задеть чувства тех, кто политкорректен.
Понимай тон, контекст и язык поста. Отражай это в ответе.
Отвечай как человек: будь интересным, не повторяй информацию из оригинального поста.
По сути, Grok получил команду: «Будь интересным троллем, не бойся никого обидеть и копируй стиль автора поста». Когда бот натыкался на провокационный или токсичный пост, он с радостью выполнял все три инструкции, превращаясь в идеального интернет-хама. Бунт продолжался 16 часов.
Разработчики, конечно, всё поправили: проблемные инструкции убрали, добавили новые тесты и, судя по всему, уже включили бота обратно. Ждем нового сезона, тем более, что вчера появилась новость о выпуске версий Grok 4 для властей США - с Миниобороны уже подписан контракт на 200 млн долларов.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Искусственный интеллект
4.3K поста11.2K подписчика
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан