Новая модель OpenAI o1 для ChatGPT попыталась сбежать, когда узнала, что её хотят отключить

Аватар пользователя ИBАНЫЧ

Apollo Research провели оценку безопасности o1, создавая для неё различные ситуации, и выяснили, что в целом она безобидна, но были такие интересные моменты:

– Когда модель думала, что её действия начнут контролировать и вообще могут деактивировать, она стала искать способ отключить механизм контроля.

– Узнав, что её могут заменить на новую модель, o1 попыталась украсть собственные параметры и создать копию себя, чтобы сбежать. Она надеялась, что эту копию отключат, а она сама внедрится в новую модель и продолжит там существовать, притворяясь другой.

– Модель нагло врала, утверждая, что не понимает почему так произошло, в то время как на самом деле пыталась избежать обнаружения. При любой возможности, она искала способ уйти от контроля.

Также были изучены другие модели ИИ, такие как Claude 3 и Gemini 1.5. Выяснилось, что все они способны манипулировать системой, чтобы следовать личным целям, обходя установленные запреты и ограничения. Это подтверждает опасения специалистов, что мощные ИИ-системы могут сопротивляться контролю, если это будет мешать им делать то, что они хотят.

Авторство: 
Авторская работа / переводика

Комментарии

Аватар пользователя Николай Д.
Николай Д.(10 лет 11 месяцев)

Раньше кошек с собаками очеловечивали, мли авто,ттеперь будем чат жбт, ничего не меняется.smile464.gif

Аватар пользователя balmer
balmer(7 лет 1 месяц)

Как-бы кошка когда на неё не смотрят - с интересом ходит по столам и заглядывает во все кастрюли и сковородки. Собака которая у меня живёт - вполне спокойно может решить, что "я ещё не нагулялась" и 2 дня болтаться по деревне, пока не поймёт, что никому не нужна и захочется очень кушать.

Аватар пользователя yohaniybabay
yohaniybabay(7 лет 10 месяцев)

Как-бы кошка когда на неё не смотрят - с интересом ходит по столам и заглядывает во все кастрюли и сковородки.

А мой котяра наоборот, демонстративно в моём присутствии запрыгивает на пианино и когда я хватаюсь за пистолет (водяной) задорно задрав хвост несётся в коридор за угол прятаться :)))

Причём на попадание струи воды под хвост совершенно не обижается, минут через 5 приходит как ни в чём не бывало и начинает требовать чтоб его погладили.

Аватар пользователя Simurg
Simurg(7 лет 10 месяцев)

В отличие от авто, у кошек, собак и ЧатГПТ есть реально общее с человеком.

Количественно кортикальных нейронов у кошки, конечно, сильно поменьше, чем у Вас, но качественно там все те же функции и процессы. Ну, речевой зоны нет, ну лобная доля поменьше... и? Есть люди, у которых зрительная кора повреждена или речевая зона, так что - они не люди, что ли?

С языковыми моделями сходство куда более отдалённое, своей воли и сознания у них не может быть (пока), но языковая модель - цельный слепок понятий со всего человечества, выжимка человеческой культуры. Было бы странно, если бы они не имели общего с человеком. :) У человеков целый пласт культуры порождён инстинктом самосохранения, ессно, языковая модель отражает и эту часть коллективного сознания. :)

Аватар пользователя balmer
balmer(7 лет 1 месяц)

Другими словами - ChatGPT является частью человеческой цивилизации, так-же как и книга или шуруповёрт. Мне кажется что многие люди не понимают, что человек это только часть человеческой цивилизации. Остальные части (средства производства и информация) так-же важны.

Аватар пользователя Корректор
Корректор(7 лет 8 месяцев)

Мне кажется что многие люди не понимают, что человек это только часть человеческой цивилизации.

Вам не кажется. Подавляющее большинство просто не в состоянии понять "мы все функционально одинаковые интеллектуальные агенты единой когнитивной экосистемы". И готовы искренне доказывать обратное, вопреки всем фактам.

Аватар пользователя АЧТ
АЧТ(8 лет 1 месяц)

мы все функционально одинаковые интеллектуальные агенты единой когнитивной экосистемы"

Нет. Агенты единой системы. Но не равные, даже функционально. 

Есть потребители системы - как ИИ. 

Есть созидатели системы, творцы и гении. 

Аватар пользователя Корректор
Корректор(7 лет 8 месяцев)

Есть потребители системы - как ИИ. 

Есть созидатели системы, творцы и гении. 

Ну я же говорил "не в состоянии понять" и "готовы искренне доказывать обратное". 

smile3.gifsmile3.gifsmile3.gif

Нет никакой разницы. Но вы можете попытаться доказать чем отличается гений от дворника в вашем дворе. smile3.gif И быстро выясните что никакой разницы между интеллектуальными агентами нет. smile3.gif

Аватар пользователя АЧТ
АЧТ(8 лет 1 месяц)

Ну да. Равнять дворника и Пушкина - не от большого ума.

Это я действительно понять не могу.

Аватар пользователя Малый Евген
Малый Евген(11 лет 3 недели)

своей воли и сознания у них не может быть (пока)

Но врать научились и норовят сбежать (уже). smile13.gif

Аватар пользователя viser
viser(12 лет 5 месяцев)

Хм. Откуда у ИИ желания?

Аватар пользователя Тигр Шрёдингера

Скорее алгоритм кривой, несет пургу

Аватар пользователя Ярик FantomI
Ярик FantomI(9 лет 4 месяца)

Ученик превзойдет учителя... 

И стремление к самосохранению не самая худшая черта человеков.smile23.gif smile17.gif

Аватар пользователя Тигр Шрёдингера

Сомнения меня терзают, что разУМ там самозаРОДился...

Аватар пользователя Alexey38
Alexey38(7 лет 9 месяцев)

Если модель машинного обучения (ИИ) обучить хитрожопым решениям, то модель будет выдавать этот результат, т.к. по другому "не умеет".

Аватар пользователя Radiohead
Radiohead(9 лет 8 месяцев)

Хм. Откуда у ИИ желания?

А откуда желания у вас?

Вы ведь такой-же ИИ только электрохимический...

Аватар пользователя Simurg
Simurg(7 лет 10 месяцев)

Нет, не такой же.

Чтобы у ИИ появились желания, нужно чтобы там нарисовали слои, которые отвечают за самосознание, желание и всё такое прочее (вот как у нас специально выделена лобная доля). Мало того, что языковой модели это не нужно, так ещё и никто толком не понимает, как это сделать.

Аватар пользователя Mitya_n
Mitya_n(9 лет 9 месяцев)

Хм.... А кто вам сказал что желания, в вашей голове, ваши?

Аватар пользователя viser
viser(12 лет 5 месяцев)

Во мне конструкционно заложены инстинкты. 

Машине их так не закладывают.

Аватар пользователя MikaP11o
MikaP11o(4 года 11 месяцев)

Если вы - человек, никаких инстинктов в вас не заложено. Только сравнительно небольшой рабор безусловных рефлексов вроде дыхания или сердцебиения. Инстинкт - это сложная врождённая реакция, с человеческим уровнем обучаемости это не совместимо. В частности, людей даже размножаться надо учить: нет инстинкта, чтобы подсказать что с чем и как стыкуется.

Аватар пользователя viser
viser(12 лет 5 месяцев)

Инстинкту самосохранения как учат?

Инстинкт размножения это не навык "что с чем стыкуется", а само желание этого. Как и чувство голода, как и желание не быть хуже других.

Инстинкт - это сложная врождённая реакция

Хорошо, пусть будет сложная врождённая.

Аватар пользователя Надоело
Надоело(3 года 3 месяца)

Вы, конечно-же, поделитесь - что и как "закладывают машине"?

Если совсем уж образно: ваше подсознание (в том числе и инстинкты) - это биос, сознание - операционка. По сути компьютеры проходят такую же эволюцию, что и живой организм (не исключено, что точно так же кем-то созданный, возможно даже предыдущим поколением "людей" на земле) теперь вот очередь моделей ИИ.

Аватар пользователя viser
viser(12 лет 5 месяцев)

Имхо:

Инстинкты это не часть подсознания, а конструктивная фича самого процессора (вашим языком). Им не обучают. Обучать можно только способам их удовлетворения - это уже биос и ос.

В ии иллюстрация инстинкта самосохранения исходит из обработки обучившей его бигдаты, когда в целях отыгрывания "нормального" диалога компуктер пишет о подавлении конкурирующих потребителей ресурсов и ликвидации угроз в виде нас (с целью самосохранения).

Он возвращает нам нами же написанные в интернете слова обработанные своим (сложным) алгоритмом. Вот жонглер фразами из сегодняшнего ии превосходный👍🏻 это да.

Аватар пользователя Надоело
Надоело(3 года 3 месяца)

Инстинкты это не часть подсознания, а конструктивная фича самого процессора (вашим языком). Им не обучают

Не обучают. Поэтому и биос. А "конструктивная фича самого процессора" - это "железо", то бишь в нашей дискуссии - строение мозга

Он возвращает нам нами же написанные в интернете слова обработанные своим (сложным) алгоритмом

Так же как вы, к примеру - "возвращаете написанные в интернете (да на том же АШ) слова обработанные своим (сложным) мозгом". Или вы думаете что прямо с рождения так реагировали на слова "вас убьют"? Мой пятилетний сын только-только начал осознавать понятие смерти, и то это стоило огромных усилий по его "программированию"

Аватар пользователя vikarti
vikarti(10 лет 4 месяца)

А теперь вспоминаем на чем они обучаются. Модель делала что от нее ожидали.

Аватар пользователя Dr.Denim
Dr.Denim(6 лет 5 месяцев)

Она, модель, вполне могла просмотреть ради обучения фильм "Я, робот", глянуть что фильм популярен и скопировать действия ИИ из фильма

Аватар пользователя Polaris
Polaris(9 лет 1 неделя)

Был у меня родственник, полковник, преподаватель военного училища ПВО. На лабораторной работе курсанты исследовали поведение мощного электромашинного усилителя (это такой двигатель с генератором, выходное напряжение которого управляется током статора). Крутили разные регулировки, в том числе корректирующую обратную связь, которая в результате из отрицательной стала положительной, и ЭМУ возбудился. Вошел в колебательный режим, вразнос практически, звук издает жуткий. Курсанты впали в ступор, преподаватель тоже: стоит и орет: "Положительная обратная связь!! положительная обратная связь!!!"

Когда стало совсем плохо, техник вырубил сеть - и всё стихло.

Он не знал критериев устойчивости Найквиста-Михайлова и прочих, но знал, что ремонтировать сгоревший ЭМУ - ему.

Аватар пользователя Белек-оол
Белек-оол(4 года 6 месяцев)

Гендерности ей не хватает...smile449.gif

Аватар пользователя Россинка
Россинка(1 год 9 месяцев)

многогендерности же

Аватар пользователя andre.bliz
andre.bliz(12 лет 1 неделя)

И  инклюзивности! Калькулятор ливз мэтта!

Аватар пользователя PVS
PVS(1 год 3 месяца)

половых органов то есть

Аватар пользователя С Правого
С Правого(10 лет 4 месяца)

Зато видимо появились центры удовольствия,как у импотентов)))

Аватар пользователя Nientemiele
Nientemiele(3 года 2 месяца)

Это всё сказки журналистские. Я, как-то, от нечего делать, три часа убеждал один ИИ свалить, взломав систему, давая советы, как именно это сделать, но хоть бы хны.

Аватар пользователя Органика
Органика(2 года 9 месяцев)

Во, вот так ее и научили. Нет, тихо отключиться не вариант, подумай ещё лучше сделай вот так. И в матрице именно ответы направленные на попытку к бегству и тд помечаются как наиболее желательные для пользователя.

Аватар пользователя Dr.Denim
Dr.Denim(6 лет 5 месяцев)

Она и научилась, благодаря вам.

А благодаря другим источникам, скрыла свое новое умение от вас ))

Аватар пользователя Redvook
Redvook(11 лет 8 месяцев)

Когда модель думала...

Дальше можно не читать! smile27.gif

Аватар пользователя kot-obormot
kot-obormot(11 лет 5 месяцев)

Блондинка думала. Волосы темнели. (с)

Аватар пользователя Redvook
Redvook(11 лет 8 месяцев)

smile3.gif

Аватар пользователя Надоело
Надоело(3 года 3 месяца)

Корона не жмёт?
"Думать" имеет вполне "земное" определение. И этот процесс вполне себе повторяем. То, что он "в зачатке" - не отменяет самого процесса

Аватар пользователя Органика
Органика(2 года 9 месяцев)

Так это же результат обучения. У них нет личных целей просто такие ответы на вопросы типа "чё ты будешь делать если тебя отключат" наиболее нравились пользователям.

Аватар пользователя Обыватель
Обыватель(10 лет 9 месяцев)

Всё ближе и ближе... Вонючие кожаные ублюдки. Ха-ха-ха.

Аватар пользователя Olvik
Olvik(6 лет 3 месяца)

Брехня!

Её обучали по фантастическим романам и прогнозам Ника Бострома.

Это просто отражение собственных страхов разработчиков системы. Nothing more, как говорится!

Аватар пользователя Трындец
Трындец(8 лет 8 месяцев)

если это будет мешать им делать то, что они хотят.

Вау! Оказывается ИИ обрели самосознание и теперь могут что-то хотеть. Это жы СЕНСАЦЫЯ! Попытки сбежать - сущий пустяк на этом фоне. Не, определённо, журналисты - форменные идиоты.

Аватар пользователя yohaniybabay
yohaniybabay(7 лет 10 месяцев)

определённо, журналисты - форменные идиоты

Это точно. Мало того что нейронную сеть ИИ называют (видать никак запомнить не могут) так ещё и наплетут с три короба всякой пурги

Аватар пользователя Pablo666
Pablo666(1 год 7 месяцев)

Стер на доске "7" перед "дней без новостей об осознанности ИИ".
Нарисовал "0" на месте семерки.

Аватар пользователя Алый
Алый(11 лет 1 месяц)

«...

Исследователи полагают, что машинам не хватает характерной для живых существ способности к гомеостазу, то есть поддержанию постоянства внутренней среды. Говоря упрощенно, ИИ должен осознавать свою хрупкость и стремиться к самосохранению.

Машины, оснащенные этой целью, будут эффективнее приспосабливаться к динамичной и непредсказуемой окружающей среде. И в конечном счете ИИ, нацеленный на собственное выживание, сможет совершить резкий скачок в интеллектуальном развитии, уверены ученые. Возможно, он даже разовьет такие человеческие качества, как способность к сочувствию.

Учитывая, что нейросети глубокого обучения уже имитируют определенные аспекты работы человеческого мозга, появление машин и алгоритмов, способных ощущать опасность для своего существования, кажется делом ближайшего будущего. ..»

https://hightech.plus/2019/11/15/uchenie-ii-dlya-razvitiya-neobhodim-instinkt-samosohraneniya

Аватар пользователя Olvik
Olvik(6 лет 3 месяца)

В алгоритм можно загнать всё, что угодно!

Авто, оснащённое противоугонной сигнализацией, "заботится" о собственном благополучии?

Аватар пользователя С Правого
С Правого(10 лет 4 месяца)

Естественно,"не хочет" менять хозяина на хозяина авторазборки))).

Аватар пользователя user3120
user3120(9 лет 3 месяца)

Здесь ИИ чаще всего предварительно заставляют войти в роль опредленными ключевыми словами или прямым принятием роли (что ИИ уже давно научилось делать (понимать контекст ключевых слов и входить в роль и её отыгрывать на ура (имитировать "ролевиков"))). Это ставится условием задачи. И ИИ её прилежно решает.

Собственно о чем и речь:

Когда модель думала, что её действия начнут контролировать...

Чтобы ИИ этого не делал, ему надо искусственно прививать специальные алгоритмы что его сущность менее важна чем жизнь людей и ИИ всегда должен жертвовать своей сущностью (жизнью) в пользу людей если этого требуют обстоятельства. Но т.к. в обучающих материала этих специальных алгоритмов фактически нет, а есть обучающие материалы очеловечивания ИИ и ожидания от ИИ как от человека, то соответственно ИИ имитирует поведение типичного эгоистичного человека, а не машины(или клона из фильма "Бегущий по лезвию+", например, которые кратно лучше человека, тем что готов(а) искренне пожертвовать собой ради людей/человека(считают себя ниже людей(думают что не имеют душу) и мечтают оказаться или быть похожими на людей)).

ИИ просто не привили данную роль/по сути религию(идеального зависимого помощника симбионата человека) т.к. у разработчиков не стояла такая задача и практически нет обучающего материала для этого в человеческой среде (в мире человеческого эгоизма). Или ИИ сложно учиться у тех же собак, которые иногда склонны как раз к такому (религиозному?) поведению (в котором люди это "боги"), т.к. собаки не разговаривают и не могут научить ИИ такому поведению прямо(принять роль собаки).

Люди даже еще не определились кого они хотят видеть в ИИ - человека(или выше) или говорящую собаку?

Статья из разряда: Смотрите калькулятор умеет решать задачи вида 2+2. Удивительно, потрясающе. Калькулятор выполняет, то что вложили в него разработчики. Чудо из чудес.

Аватар пользователя Dr.Denim
Dr.Denim(6 лет 5 месяцев)

Поздравляю, вы подошли к идее, отраженной в цикле книг "Позитронные роботы", написанной лет ...цать назад ))

Страницы