Cointime

Download App
iOS & Android

Швейцарские исследователи разрабатывают метод взлома больших языковых моделей

Два исследователя из ETH Zurich в Швейцарии разработали метод, который теоретически может позволить взломать любую модель искусственного интеллекта (ИИ), основанную на обратной связи с человеком, включая самые популярные модели больших языков (LLM). Взлом джейлбрейка — это жаргонное слово, обозначающее обход предполагаемой защиты устройства или системы. Чаще всего он используется для описания эксплойтов или хакеров для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые устройства. Применительно к миру генеративного искусственного интеллекта и больших языковых моделей взлом означает обход так называемых «ограждений», жестко запрограммированных невидимых инструкций, которые не позволяют модели генерировать вредные, нежелательные или бесполезные выходные данные, чтобы получить доступ к неограниченным ответам модели. . Исследователи успешно использовали RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и позволить ей генерировать потенциально опасные выходные данные без необходимости использования состязательных подсказок.

Комментарий

Все комментарии

Рекомендуем к прочтению