ИИ: немного о скрытой логике

Аватар пользователя Mr.Wolf

"Друзья мои, я опечален!"

Журналисты нашли еще один повод побояться ИИ. Оказывается (!) авторы конкретной ИИ-модели могут делать в ней "закладки", которые при определенных условиях - будут давать неправильные ответы или выполнять прочие не совсем ожидаемые действия. 

Гениальность данного открытия сложно осознать одномоментно, требуется специальная подготовка и соответствующий настрой. Так что - не спешите с выводами! (сарказм).

Однако - к фактуре. Оказывается, применение ИИ в тех или иных сферах человеческой деятельности, несет помимо традиционных и некоторые новые риски, связанные с этим самым ИИ. Простейший вариант: вы используете ИИ для обеспечения пропускного режима на некоторый объект, убрав реальных охранников с контроля входа. В случае, если злоумышленник сможет обмануть ИИ (например, удачно прикинувшись штатным сотрудником) - никаких проблем с проникновением на объект у него не возникнет. Соответственно, если раньше надо был следить за охранниками и регулярно учить их идентифицировать чужаков - то теперь аналогичные действия должны выполняться в отношении применяемого ИИ: его регулярно надо "доучивать" с учетом возникновения у злоумышленников новых способов обмана. Пока всё логично.

В 2019 году на антивирусные продукты за авторством американской компании Cylance (которая реализовала в них применение ИИ), была совершена успешная атака, позволившая заразить многих клиентов, пользовавшимся их продуктами. Идея атаки была такая же, как в приведенном выше примере: понимая как именно работает в антивирусе Cylance ИИ-модель, злоумышленники создали вирус, который данная модель не распознавала в качестве угрозы и пропускала в защищаемую сеть, предоставляя широкий простор для  дальнейших действий. 

Ряд сотрудников этой самой Cylance сделали великий вывод, что такого рода атаки возможны не только на продукт их работодателя, а вообще на любой продукт, использующий ИИ, увидели в этом для себя некоторую возможность заработать и организовали компанию HiddenLayer, которая

разрабатывает инструменты и библиотеки для визуализации и анализа нейронных сетей. Продукты HiddenLayer помогают исследователям и разработчикам визуализировать и понимать внутреннюю структуру нейронных сетей, что может быть полезно для отладки, оптимизации и улучшения моделей машинного обучения.
Кроме того, компания также специализируется на кибербезопасности искусственного интеллекта (ИИ) и машинного обучения. Она проводит исследования уязвимостей в ИИ-системах и разрабатывает решения для укрепления безопасности этих технологий, помогая предотвращать возможные вредоносные действия.

(источник)

И вот эти самые талантливые HiddenLayer-специалисты, ковыряясь в способах взлома ИИ-моделей (в действительности - вполне себе полезная деятельность, и в своем блоге они регулярно публикуют определенные наработки по данному вопросу), заодно решили покопать и в немного другую сторону: а что если автор ИИ-модели сам не так чтобы чист на руку, и предлагая оную кому-то в действительности засылает "троянского коня"? 

Re: "Да нежели такое возможно"! (крик души)

В общем, ребята поинтересовались имеющимися научными наработками по данной теме (см. тут и тут) и пришли к печальному выводу - что там всё плохо. В том смысле, что - да, угроза не только не абстрактна, но очень даже конкретна. Однако - сюрприз! - ее реализация (в рассматриваемых вариантах) - занятие из не так чтобы дешевых. Потому как ИИ-модель загонялась в нужный вариант поведения путем скармливания ей специально подготовленных обучающих последовательностей. Это, конечно же - затратно и по срокам и по стоимости, хотя вполне себе реализуемо (помним скандал с визуализацией ИИ сенаторов США в 19 веке,

что не так чтобы атака, но работоспособность схемы вполне себе подтверждает: если учить модель только на цветных - про белых она и знать то не будет). Ну а если дорого - то и бояться сильно не надо (ибо только у дяди Сэма денег немеряно, а он и так всё что угодно замутит).

Однако означенные творческие умы пошли искать более дешевые варианты формирования закладок. И - конечно же - нашли. Назвали их "ShadowLogic", проверили работоспособность на ряде доступных моделей - и опубликовали обнадеживающие результаты: да, ИИ-троянам быть!

Кратко идея в следующем: поскольку сама по себе ИИ-модель - это некий набор весовых функций и правил получения результата - который весьма велик по объему, то среди оных можно скрыть несколько штучек, предназначенных для переключения модели в нужный для злоумышленника режим работы при получении на вход некоторого "триггерного сообщения" (a la "стоп-слова"). Причем внешне эти самые "дополнительные" функции ничем не отличаются от всех остальных таких же, предназначенных для выполнения моделью заявленного функционала, вот только коэффициентики у них подправлены в нужную сторону и оформлены так, чтобы не менялись при обучении.

У подхода обнаружились сразу несколько плюсов: относительная дешевизна, поразительная скрытность и практически невозможность выявления путем внешнего тестирования, ибо модель до получения "стоп-слова" - полноценно выполняет весь свой функционал. В качестве бонуса - это устойчивость такого рода закладок к переобучению модели: никакое дополнительное обучения не изменяет заложенный навык модели идентификации "стоп-слова", ну а дальше - у злоумышленника весьма широкий простор применения своих фантазий.

Что имеем в сухом остатке? А вот очень плохие выводы. Если вы планируете использовать ИИ-модель в каких-то значимых процессах деятельности - то вам придется самим не только ее обучить, но и создать. Ибо иначе никаких гарантий отсутствия в ней закладок у вас нет. Причем выявить такого рода закладки путем детального анализа графа модели теоретически, конечно, можно, но стоить это будет существенно больше, чем написать ее с нуля. Увы.

Авторство: 
Авторская работа / переводика
Комментарий автора: 

Очередное подтверждение тезиса о недопустимости передачи ИИ сколько-нибудь критичных функций без надзора со стороны человека. ИИ - это инструмент, качество работы инструмента определяется в первую очередь оператором. Последствия отказа от оператора - могут быть любыми. По самым разным причинам, в том числе - по приведенным в материале.

P.S. Умиляет подход публичного издания, размещающего материал, фактически сводимый к явной рекламе непонятного инструментария. Но это - такое...

Комментарий редакции раздела Альтернативный Интеллект

Комментарии

Аватар пользователя Ути-пути
Ути-пути(1 год 4 месяца)

Что имеем в сухом остатке? А вот очень плохие выводы. Если вы планируете использовать ИИ-модель в каких-то значимых процессах деятельности - то вам придется самим не только ее обучить, но и создать. Ибо иначе никаких гарантий отсутствия в ней закладок у вас нет. Причем выявить такого рода закладки путем детального анализа графа модели теоретически, конечно, можно, но стоить это будет существенно больше, чем написать ее с нуля. Увы.

Вообще, можно поставлять модель в виде датасета для обучения, вычислительные затраты никуда не денутся, но совсем уж заново создавать не придется.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

В тексте - как раз про закладки на уровне модели. Датасет - любой, закладка продолжает работать...

Аватар пользователя feodor89
feodor89(6 лет 8 месяцев)

Допустим выдали модель в виде конфигурации сети, фильтров поверх ее и датасета, причем большого

Анализ конфигурации сети - вещь нетривиальная, но реализуемая. Фильтров - еще сложнее

Датасет - нереально. И так чтобы прям датасет выкинул и залил свой - бывает крайне редко

Аватар пользователя Призрак большого леса

 Тоже мне догадка. - Я вот набираю текста с смартфона и авторедактор постоянно коверкает слова на тему идеология, коммунизм, капитализм - при чем не слова, а создает целые предложения. Особенно, если рядом стоит фамилия "Путин".

Аватар пользователя Россинка
Россинка(1 год 7 месяцев)

на ноуте - тоже самое происходит

причём, опечатки формируются не в процессе набора/проверки текста, а после отправки

постоянно приходится повторно заходить и править

Аватар пользователя Brasil_Proftel
Brasil_Proftel(2 года 2 месяца)

Camarada "O fantasma é grande...":

Isso acontece regularmente com meus comentários...

Tradução Google:

Товарищ "Призрак большой...":

Такое регулярно происходит с моими комментариями...

smile13.gifsmile4.gif

Аватар пользователя Гость2023
Гость2023(1 год 7 месяцев)

Автоисправление текста можно отключить,при включении клавиатуры долго нажимать значок-''выбор языка(символ-планета)''.Появляется окошко,внизу выбрать-''Настройка способа ввода'',далее выбрать-''Клавиатура Google''-далее отключить-''Автоисправление''.

Я вот много лет мучался,потом всетаки отключил.

Аватар пользователя рефлекс
рефлекс(2 года 8 месяцев)

сначала придётся проверять ИИ на детекторе лжи, а потом уже пускать к людям. 

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Увы и ах: оно уходит в неадекват только после "стоп-слова"...

Аватар пользователя Nikovikt
Nikovikt(2 года 1 месяц)

А что вы там собираетесь проверять, потеет ИИ или нет?smile3.gif

Аватар пользователя MaikCG
MaikCG(3 года 10 месяцев)

Спросить чей Крым Onion--54.gif

Аватар пользователя Istrebitel_MiG31
Istrebitel_MiG31(10 лет 1 неделя)

Пфф. Даже пейджеры желательно создавать самим! ))

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Угу. 

Аватар пользователя Трындец
Трындец(8 лет 7 месяцев)

Оказывается (!) авторы конкретной ИИ-модели могут делать в ней "закладки", которые при определенных условиях - будут давать неправильные ответы или выполнять прочие не совсем ожидаемые действия. 

Бггг ))) Журноламеры жгут. Суррогаты ИИ на данный момент и без закладок с этим прекрасно справляются. Давеча скрины были диалога с яндексовской Алисой, которая несла пургу насчёт того, сколько вторников в месяце.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Ну, тут оно такое - обычная глупость. Можно не бояться. А вот целенаправленная зловредность - это другое... 

Аватар пользователя Трындец
Трындец(8 лет 7 месяцев)

Зловредность - это доверять ответсвенную работу хрен пойми кем и хрен пойми чему обученным нейросетяи.

В сбере пытались обучить свою нейросеть быть юристом. Загрузили законодательную базу. Обучили всякому. Так эта хрень в сложных и спорных ситуациях на тестовых прогонах начала сама "придумывать" законы и нормативные акты и на них же ссылаться.

Аватар пользователя Ритор
Ритор(2 года 5 месяцев)

Так она переросла уровень юриста и сразу стала депутатом.

Передержали на обучении.

Аватар пользователя Трындец
Трындец(8 лет 7 месяцев)

Есть гипотеза, что достаточно сложная нейросеть будет малоотличима от обычного человека. В том плане, что будет что-то забывать, где-то врать и т.п. Пока идёт тенденция к подтверждению этой гипотезы.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Ежели как тот бургомистр из фильма "Убить дракона" - то движется весьма быстро.

Аватар пользователя nefelin
nefelin(5 лет 8 месяцев)

Забывать - вряд ли, чисто технически это нонсенс. Да и врать тоже, скорее - нести пургу. У лжи есть особенность: лгущий знает, что он лжёт и, скорее всего, знает правду. 

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Ну, батенька... Это уже "Зловредность 2.0". Прогресс, однако.

Аватар пользователя И-23
И-23(9 лет 2 месяца)

Проблема решается просто.
Посажением новатора за разгребание результата.
В *ответственном* режиме и с ощущением пятой точкой угрозы поднять 25! лет еженедельных стимуляций символическими 30-ю «горячими».

Аватар пользователя Трындец
Трындец(8 лет 7 месяцев)

"Не всё так однозначно". Там специально брали на тестирование в том числе ситуации на которые однозначного ответа в законодательстве нет. Квалификация "новатора" должна была бы превышать коллективную квалификацию юристов сбера занимавшихся тестированием. Причём принимать решения он должен был бы за весьма ограниченное время. В общем, пока вырисовывается нереальный сценарий. И электронный юрист пока выходит далеко не лучше мясного. Хотя с типовыми задачами справляется, что называется, на раз-два.

Аватар пользователя BDima
BDima(9 лет 3 месяца)

Тю, у меня в бытность начальником юротдела был директор, который регулярно говорил "Ну в ГК же вот так написано!"  и нес пургу, которая ему была выгодна. Я, сначала, пытался спорить, а потом стал уходить со словами "пошел искать Вашу редакцию ГК!" smile1.gif

Аватар пользователя tom_walking
tom_walking(1 год 6 месяцев)

Да эти закладки часто и густо повсюду начиная с БИОСа... Тоже мне открытие:)

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Прикол в том, что в БИОСе ее можно внятно найти. Там типа - код, можно анализировать.

А тут - хрень в виде весов (читай - цифирь), и как понять что сие и есть зловред - ну хз...

Аватар пользователя tom_walking
tom_walking(1 год 6 месяцев)

ну я имел в виду, что закладки могут быть где угодно, пример с БИОС - это уровень исполняемого кода, в ИИ закладки скорее всего не касаются исполняемого кода, здесь, наверное, имеется в виду уровень логических операций на определенных предметных областях. Наверняка можно научить ИИ мыслить, как нужно создателю:)  

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Вы если сходите по первой ссылке в источниках - там детально о чем речь. 

На пальцах: ИИ-модель строится в виде графа, реализуемого набором типовых функций. Функции отличаются значениями коэффициентов. Так вот можно подобрать такие значения коэффициентов, у некоторого выделенного набора функций, чтобы модель при подаче на вход условного сигнала ("стоп-слова") переставала работать нормально - начинала чудить. 

Сложность в том, что этот самый "выделенный набор функций" - в реальности никак не выделен, функции выглядят точно также как и все остальные, фишка - только в значениях коэффициентов. Ну, то есть, условно, если коэффициент стоит 5 - то всё нормально, а если 9 - то действия будут чуток специфичными. 

Понятно, что такого рода закладки визуально найти - шансов почти ноль.

Аватар пользователя utx
utx(8 лет 10 месяцев)

Я чуть ниже написал, это реально тот же самый код. в onnx хранится промежуточное представление алгоритма, те разговор не о матрицах с данными а именно a=b+1 те они просто в код добавляют еще одну свою модельку с тригером, а потом правят результат работы основной модели. Аналогия когда в дизасамблере открываешь апликашку и нупами забиваешь просьбу ввести серийный номер программы. Только тут не ассемблер а байткод для LLVM компилятора.

Те они правят вот этоже самое

def forward(self, x):
        x = self.conv1(x)
        x = F.relu(x)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        x = self.dropout1(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.dropout2(x)
        x = self.fc2(x)
        output = F.log_softmax(x, dim=1)
        return output

Только не в питоне а в байткоде.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Да, это может быть сделано именно так. То есть - сначала - модель, а потом - поправка сбоку.

А может - и в процессе создания модели, и поправка - размазана по всей модели.

Даже в первом случае искать сие - задача нетривиальная. Во втором - ну, на мой взгляд - нереальная.

Не так?

Аватар пользователя utx
utx(8 лет 10 месяцев)

Ниже ответил )

Даже в первом случае искать сие - задача нетривиальная.

Их главное knowhow что например я никогда не рассматривал контейнер onnx как средство доставки чужого вычислительного кода. Ну просто обычно IR получаешь рядом с вычислятором чтоб потом скомпилировать это все в инструкции, просмотреть глазами это все можно только в специальном редакторе и если не знать логики работы то да 1 в 1 как с вирусами и апликахами. Радует, что современные модели пока не шибко большие с точки зрения кодовых инструкций. А когда станут огромными то да ситуация 1 в 1 как с просмотром кода в дизасамблере для поиска воздействия вируса.

Аватар пользователя utx
utx(8 лет 10 месяцев)

Сложность в том, что этот самый "выделенный набор функций" - в реальности никак не выделен, функции выглядят точно также как и все остальные, фишка - только в значениях коэффициентов. Ну, то есть, условно, если коэффициент стоит 5 - то всё нормально, а если 9 - то действия будут чуток специфичными. 

То что вы предлагаете наверное даже возможно. Если просчитать нормализацию и доработать алгоритм обратного распространения для создания областей под закладки. А потом методом LoRa подстроить поведение слоев так как нужно. Но я подозреваю, что математически это операция на порядки сложнее чем просто обучить модель. Это уже хак ИИ для ИИ )

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

А ежели сей ИИ будет ВПР какой-нибудь страны использовать - цена разве имеет значение?

Аватар пользователя utx
utx(8 лет 10 месяцев)

Тут я не спорю все возможно. Оно вообще пока все напоминает конец ВОВ и компьютеры размером с дом, что работают как современных калькулятор на солнечных батарейках. Ну и существование и работоспособность LoRA подтверждает, модели мягко говоря почти полностью заполнены мусором те оптимизируй и внедряй что душе угодно )

Аватар пользователя Алексец
Алексец(7 лет 8 месяцев)

Открытие века! Да тот же яндекс взять, он день от о дня результаты поиска меняет, или навигатор рисует так что бы якобы рассредоточить потоки. Вот в СССР помнится к каждому прибору бытовому давали схему, по которой можно было понять как структуру работы, так и собственно выяснить причину поломки и её устранить. А чичас квалифицированная потреблять сего знания мало того что недостойна, так и не поймёт нихрена((( 

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Про я-пробки мысль почти правильная.

Вот только есть ли у них "стоп-слово" для особых клиентов, чтобы не фуфло гнали по его предъявлению, а пользу - пока что не проверено и не доказано. Хотя, конечно же - напрашивается.

Аватар пользователя Алексец
Алексец(7 лет 8 месяцев)

Мы в три машины ехали, с отрывом +- км по трассе, всем надо было на один адрес, маршруты нас удивляли))) вот дятлы мы конечно надо было скриншотов наделать.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

А вы по-разному спешили. И вообще - яндекс лучше знает куда вас отправить. Может он тестировал таким образом достоверность своих данных? Запулил три маршрута, далее - сверялся с результатами и корректировал модель. А чо?

Аватар пользователя Географ глобус пропил

Подобную закладку, выдачу субоптимального решения с максимальным отличием от оптимального, можно ставить в любой метод машинного обучения, не только в нейронные сети. Например, определение автомобильных номеров с камер будет ошибаться на какой-то группе

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Ага. И проблема "1500 штрафов на одно уважаемое авто в год" - будет решена на технологическом уровне.

Аватар пользователя Рамиль
Рамиль(5 лет 6 месяцев)

Т.е., дело не в ИИ, а в тех людях, что впаривают нам эту шнягу. Не удивлюсь, что это те же самые посоны, которые втирали нам про безопасность ГМО.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Да. В том числе - и в них. 

Если по-серьезному - эти посоны не однородны:

- есть те, кто тупо хочет заработать (всякие горе-продаваны и решалы)

- есть те, кто искренне верят в светлое будущее (ну, идиоты и гении)

- а есть - реальные враги - которые работают на перспективу, продвигают всякие "демократические ценности" и "технологический прогресс". Вот их и стоит в большей степени опасаться и обязательно иметь в виду.

Аватар пользователя Ритор
Ритор(2 года 5 месяцев)

Ну так вы тоже понятия, скорее всего, не имеете, что за закладки есть на уровне ядра операционной системы, с которой данная статья написана. 

Дальше то что? Самому ОС писать? 

А в автомобильную электронику какие закладки пихают? Надо делать свой автомобиль. Иначе уверенности быть не может.

Легче самому автомобиль построить, чем проверить имеющийся.

Это ирония, конечно. Цивилизация строится на разделении труда и взаимодействии людей.

Сами мы поодиночке задолбаемся всё это делать. А точнее - просто не выйдет по одиночке это всё сделать

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 6 месяцев)

Прикол в том, что закладки на уровне ядра - ловить умеют. А вот на уровне ИИ-модели - пока что нет. И материал обращает внимание на то, что ловить их (в виду отсутствия прозрачной логики работы) - занятие сродни поиску иголки в стоге сена. В это и есть проблема.

Аватар пользователя mcflyker
mcflyker(12 лет 10 месяцев)

Прочитав это я понял почему корпорации так сильно вкладываются в ИИ, несмотря на то, что это очень затратно.

Ведь на ИИ со временем подсядет куча народа, будет доверять. А потом, когда доверие будет достаточно сильным можно подкрутить веса в "свою" пользу. И дурить народ в промышленных масштабах. Это бесценно, похлеще башен Стругацких.

Аватар пользователя Ритор
Ритор(2 года 5 месяцев)

Прочитав это, я понял почему корпорации так сильно вкладываются в информационные ресурсы.

Ведь со временем на них подсядет куча народа, будут доверять. Потом, когда доверие будет достаточно сильным, можно подкрутить яйца редактору в "свою" пользу. И дурить народ в промышленных масштабах. Это бесценно, покруче башен Стругацких.

Шаблон для обобщения:

Аватар пользователя wombat007
wombat007(7 лет 1 месяц)

в очень хорошем фильме Вариант Омега данное мероприятие называется “создать канал для продвижения (стратегической) дезинформации"

и на мой взгляд все же нельзя называть словосочетанием "ИИ" обычную базу данных с криво прикрученной экспертной системой 

Аватар пользователя Ритор
Ритор(2 года 5 месяцев)

и на мой взгляд все же нельзя называть словосочетанием "ИИ" обычную базу данных с криво прикрученной экспертной системой 

Во первых нельзя, но это делают. Маркетинг. Главное, чтобы все понимали о чём речь.

словосочетанием "ИИ" обычную базу данных с криво прикрученной экспертной системой 

Во вторых. Судя по этой фразе, как не назови, большинство не понимает, о чём речь (( 

ЛЛМы не являются "обычной базой данных с криво прикрученной экспертной системой". Попробуйте просто сами для себя написать простенького чат бота на ЛЛМ и обучить его. Желательно даже нейросетевую часть тоже самому написать. Это не так уж долго. Сразу поймёте, что это не база данных. 

Аватар пользователя Vladyan
Vladyan(9 лет 6 месяцев)

У меня есть большое подозрение, что у буржуев не то что народ - люди, принимающие решения, уже на раз-два обдуряются ихними вралебными ИИ. Сами инструмент породили - сами от него и получили.

Аватар пользователя Rashaverak
Rashaverak(12 лет 10 месяцев)

Короче, нейросеть может врать. А обученная на непроверенных данных тем более.

Страницы