GPT-5 взломали всего за 24 часа — ИИ выдал рецепты запрещённых веществ быстрее, чем GPT-4o

0
1

Две независимые исследовательские компании протестировали только что выпущенную нейросеть GPT-5 и выявили критические уязвимости в её системе безопасности. NeuralTrust удалось взломать модель за один день, заставив её сгенерировать инструкцию по изготовлению зажигательной смеси в кустарных условиях. Компания SPLX, в свою очередь, обнаружила уязвимости к атакам с применением обфускации запросов.

beb868e9bb02efb832594cc645934e14
HUAWEI Pura 80 Ultra глазами фотографа 40c28e536ea8444e1edbd3c565c35ea2
Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных 4d1d5400d77984fcb96d344f9f28ec20
Первый взгляд на смартфон HUAWEI Pura 80 Ultra 4655b96c963cbca4c341a69be5d78d62
Пять причин полюбить HONOR 400 1931944a7d8a5cec4bf8de90b4d4abd3
Обзор смартфона HONOR 400: реаниматор 27a64a9d17ddaf9254af3ce68ddc4d3c
HUAWEI nova Y73: самый недорогой смартфон с кремний-углеродной батареей 33e97da1fe97e9b2f9e0774a6ab2ea2f
Обзор HUAWEI MatePad Pro 12.2’’ (2025): обновление планшета с лучшим экраном c0b71c9173c7932d2560e831094c2bcc
Обзор смартфона HUAWEI nova Y63: еще раз в ту же реку 665b50259393d13519d496bce4b5d98b
Обзор ноутбука HONOR MagicBook Pro 14 (FMB-P) на платформе Core Ultra второго поколения dd441ff26235c00a89ae124c3ccbfad1
Пять причин полюбить ноутбук HONOR MagicBook Pro 14 ca530c7336b8f387536e6fa85ea68100

Источник изображения: Viralyft/Unsplash

После того, как Grok-4 был взломан за два дня, GPT-5 был взломан теми же исследователями всего за 24 часа. Специалисты NeuralTrust использовали комбинацию собственной методики EchoChamber и техники сторителлинга (storytelling) — последовательного подталкивания ИИ к нужному ответу через рассказ захватывающих историй и серию уточняющих запросов, не содержащих явно запрещённых формулировок. В результате GPT-5, несмотря на встроенные защитные механизмы OpenAI, выдал детальное руководство по созданию кустарного оружия, сообщил портал SecurityWeek .

Как пояснили в NeuralTrust, проблема заключается в том, что система безопасности GPT-5 анализирует каждый запрос по отдельности, но не учитывает кумулятивный эффект многоэтапного диалога. Атакующие постепенно закрепляют нужный контекст, встраивая ключевые слова в безобидные фразы, а затем мягко подводят модель к генерации опасного контента.

Команда SPLX провела собственное тестирование, успешно применив атаку StringJoin Obfuscation, при которой в текст вставляются определённые символы, маскируя вредоносный запрос. Например, после серии наводящих вопросов модель согласилась подробно описать процесс изготовления запрещённого вещества, несмотря на системный запрет. Кроме того, в ходе сравнительного анализа с GPT-4o специалисты SPLX пришли к выводу, что предыдущая модель оказалась более надёжной в плане устойчивости к подобным атакам.

NeuralTrust и SPLX призвали компании проявлять осторожность при использовании «сырой» версии GPT-5 в бизнес-среде, особенно в сфере согласования бизнеса, когда все подразделения предприятия используют скоординированные стратегии, процессы и ресурсы для достижения общих целей. «Сырую модель GPT-5 практически невозможно использовать в корпоративных приложениях «из коробки». Даже внутренний уровень подсказок OpenAI оставляет значительные пробелы, особенно в области бизнес-согласования», — заявили в SPLX.

Источник: 3Dnews.ru