Наука и технологии

OpenAI представила o3 — самый умный ИИ в мире, который на 88 % догнал человека

21 декабря

В последний день акции Shipmas, в рамках которой было обещано в течение 12 дней показывать, анонсировать и рассказывать о новых ИИ-функциях, компания OpenAI представила пару больших языковых моделей нового поколения o3 и o3-mini, обладающих способностью рассуждать.

Источник изображений: OpenAI

OpenAI отмечает, что речь не идёт о выпуске новых языковых моделей сегодня. Компания пояснила, что обучение этих нейросетей ещё не завершено и окончательный результат их обучения может отличаться от того, о чём она говорит сегодня. В то же время OpenAI принимает заявки исследовательского сообщества на тестирование этих моделей перед их публичным выпуском. Компания ещё не решила, когда это произойдёт.

В сентябре этого года OpenAI запустила думающую ИИ-модель o1 (кодовое название Strawberry). Решение назвать новые модели o3 связано с тем, что таким образом компания решила избежать путаницы (или конфликтов товарных знаков) с британской телекоммуникационной компанией O2.

Термин «рассуждающая модель ИИ» в последнее время стал очень модным в среде разработки технологий искусственного интеллекта и машинного обучения. Однако, по сути, он означает лишь то, что для решения заданного вопроса машина разбивает заданные инструкции на более мелкие задачи. Это в конечном итоге позволяет добиться от неё более точного результата. «Рассуждающие» модели ИИ чаще всего показывают весь процесс решения и то, как ИИ пришёл к тому или иному ответу, а не просто дают окончательный ответ без объяснения.

Как утверждает OpenAI, её новая модель o3 превосходит предыдущие рекорды производительности по всем направлениям. В рамках теста ARC-AGI, который был специально создан для сравнения возможностей искусственного интеллекта с интеллектом человека, модель o3 более чем в три раза превзошла возможности o1, продемонстрировав результат в 88 %.

Новая модель также быстрее предшественника в написании кода (тест SWE-Bench Verified) на 22,8 % и даже превзошла ведущего учёного OpenAI в спортивном программировании.

Модель o3 почти справилась с одним из самых сложных математических тестов, AIME 2024, пропустив в нём лишь один вопрос, а также набрала в бенчмарке GPQA Diamond 87,7 % — значительно больше, чем любой результат человека-эксперта.

В самых сложных математических и логических тестах, которые обычно ставят в тупик любые другие ИИ, o3 решила 25,2 процента задач — результаты других моделей не превышают и двух процентов.

Весомым преимуществом o3, как и o1, является возможность моделей «рассуждать» и эффективно проверять свои же факты, чтобы избегать различного рода ошибок и галлюцинаций. Правда, разработчики из OpenAI заявили, что процесс проверки фактов перед выдачей ответа приводит к небольшой задержке — от нескольких секунд до нескольких минут (зависит от сложности вопроса). Кроме того, задержка связана с тем, что модель определяет, соответствует ли запрос пользователя политике безопасности OpenAI. Компания утверждает, что при тестировании нового алгоритма защиты на o1 она намного лучше следовала правилам безопасности, чем предыдущие модели, включая GPT-4.

И всё же, как отмечают журналисты TechCrunch, основным недостатком «рассуждающих» моделей является то, что для их работы требуется гораздо больше вычислительных мощностей, поэтому в итоге их использование обходится значительно дороже «обычных» решений.

Источник: 3Dnews.ru

«Сбербанк» сократил 20 % сотрудников из-за ИИ, который «поменяет всё и везде»

9000 мА·ч, 165 Гц, Snapdragon 8 Elite Gen5, 24 ГБ ОЗУ…

Команда из 16 ИИ-агентов Anthropic Claude смогла самостоятельно написать компилятор языка…

Почти 15 000 мАч и 12/256 ГБ памяти при цене 385…

Амбициозный симулятор выживания Blackfrost: The Long Dark 2 не выйдет в…

Календарь релизов 9–15 февраля: Reanimal, Mewgenics, Romeo is a Dead Man…

«То есть Concord вас ничему не научила?»: Sony анонсировала кооперативный боевик…

К созданию Heroes of Might & Magic: Olden Era присоединился «отец»…

Ubisoft отменила ремейк Prince of Persia: The Sands of Time спустя…

AMD за один квартал разом отъела у Intel огромную долю рынка….

За девять лет Intel нарастила производительность своих iGPU в 12 раз

Intel отказалась от программы платной разблокировки функций для своих процессоров. Software…

Nvidia готовит к выходу RTX 5090 Ti? Модель мощнее RTX 5090…

С этими процессорами портативные Windows-консоли наконец-то станут по-настоящему игровыми. CPU Intel…

«Мыльницы» воскресли: продажи компактных камер внезапно взлетели почти на 30 %…

Canon выпустила юбилейную «мыльницу» по цене «зеркалки» — PowerShot G7 X Mark III…

DJI представила лёгкий стабилизатор RS 5 для камер весом до трёх…

Samsung представила первый в мире дисплей на цветных электронных чернилах E-Ink…

Владельцы Leica ищут возможность продать компанию за €1 млрд

Перечислены новые функции iPhone

РКН перешёл к полной блокировке YouTube спустя 1,5 года «замедления» —…

Легендарный телефон Nokia воскресили

Мощность конкурента iPhone 17 от Samsung оценили

Названы самые ожидаемые смартфоны

Джефф Безос намекнул Илону Маску, что его компания Blue Origin опередит…

Xbox нового поколения будет работать на Windows — подробности о самом…

Team Cherry прокачала Hollow Knight для Switch 2, PS5, Xbox Series…

Не только Ryzen 9000X3D: платы ASRock начали убивать процессоры Ryzen 5…

Xiaomi представила смартфон Redmi Turbo 5 Max с батареей на 9000…

OpenAI представила o3 — самый умный ИИ в мире, который на 88 % догнал человека

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Рубрики

Новости Hi-Tech

Джефф Безос намекнул Илону Маску, что его компания Blue Origin опередит SpaceX в новой...

«Мыльницы» воскресли: продажи компактных камер внезапно взлетели почти на 30 % — и вот...

Canon выпустила юбилейную «мыльницу» по цене «зеркалки» — PowerShot G7 X Mark III Anniversary Edition

Амбициозный симулятор выживания Blackfrost: The Long Dark 2 не выйдет в 2026 году —...

AMD за один квартал разом отъела у Intel огромную долю рынка. Компания нарастила позиции...

Джефф Безос намекнул Илону Маску, что его компания Blue Origin опередит...