Швейцарские исследователи разрабатывают метод взлома больших языковых моделей

Два исследователя из ETH Zurich в Швейцарии разработали метод, который теоретически может позволить взломать любую модель искусственного интеллекта (ИИ), основанную на обратной связи с человеком, включая самые популярные модели больших языков (LLM). Взлом джейлбрейка — это жаргонное слово, обозначающее обход предполагаемой защиты устройства или системы. Чаще всего он используется для описания эксплойтов или хакеров для обхода потребительских ограничений на таких устройствах, как смартфоны и потоковые устройства. Применительно к миру генеративного искусственного интеллекта и больших языковых моделей взлом означает обход так называемых «ограждений», жестко запрограммированных невидимых инструкций, которые не позволяют модели генерировать вредные, нежелательные или бесполезные выходные данные, чтобы получить доступ к неограниченным ответам модели. . Исследователи успешно использовали RLHF, чтобы обойти ограничения модели ИИ (в данном случае LLama-2) и позволить ей генерировать потенциально опасные выходные данные без необходимости использования состязательных подсказок.

Недавно просмотренные

Популярные валюты

ежедневные тенденции

Надо читать каждый день

Добро пожаловать

Зарегистрировать аккаунт

Войдите, используя email

Зарегистрируйтесь с помощью email

Проверь свои входящие

Швейцарские исследователи разрабатывают метод взлома больших языковых моделей

Все комментарии

Рекомендуем к прочтению

XRP лидирует в росте, старые валюты восстанавливаются: сигнал о возвращении сезона альткойнов?

SOL достигает нового максимума, может ли «King of Meme Chain» стать ETF на третьем месте?

Луна против Элизы: кто победит или проиграет? Одна статья приблизит вас к экологической битве агентов ИИ

Внесёт ли Beam Chain пять новых изменений в Ethereum?

Как быстро отправить монету с помощью AI Bot на Farcaster?

«Обратный отсчет» до отставки председателя SEC Генслера: индустрия шифрования увидит свет

Стратегия финансового гиганта изменилась? Чарльз Шваб выходит на рынок криптовалют

Председатель Комиссии по ценным бумагам и биржам США Гэри Генслер объявил, что уходит в отставку. Ознаменует ли криптовалюта четыре года гладкого плавания?

Скоро появится TikTok Meme: мой личный опыт показывает, что после одной ночи просмотра видео мой аккаунт потерял 50%

От хаоса к ясности: как SEC Трампа изменит регулирование криптовалют

Надо читать каждый день

SOL достигает нового максимума, может ли «King of Meme Chain» стать ETF на третьем месте?

«Обратный отсчет» до отставки председателя SEC Генслера: индустрия шифрования увидит свет

Биткоин скоро достигнет $100 000, альткойны не дотягивают

ЕС начинает войну стейблкоинов: соревнуется 21 эмитент, Circle приземляется первым, а Tether поддерживает «агентов»

Понимание Биткойна: от бесплатного программного обеспечения к бесплатному сервису

Три основных катализатора: будет ли рынок расти на фоне потрясений?

делиться