Консоли

Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

23 февраля

Компания Stability AI выпустила предварительную версию Stable Diffusion 3.0 — флагманской модели искусственного интеллекта следующего поколения для генерации изображений по текстовому описанию. Stable Diffusion 3.0 будет доступна в разных версиях на базе нейросетей размером от 800 млн до 8 млрд параметров.

Источник изображений: Stable Diffusion 3.0

В течение последнего года компания Stability AI постоянно совершенствовала и выпускала несколько нейросетей, каждая из которых показывала растущий уровень сложности и качества. Выпуск SDXL в июле значительно улучшил базовую модель Stable Diffusion, и теперь компания собирается пойти значительно дальше.

Новая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество изображения и лучшую производительность при создании изображений из сложных подсказок. Новая нейросеть обеспечит значительно лучшую типографику, чем предыдущие версии Stable Diffusion, обеспечивая более точное написание текста внутри сгенерированных изображений. В прошлом типографика была слабой стороной Stable Diffusion, собственно, как и многих других ИИ-художников.

Stable Diffusion 3.0 — это не просто новая версия модели прежней Stability AI, ведь она основана на новой архитектуре. «Stable Diffusion 3 – это диффузионная модель-трансформер, архитектура нового типа, которая аналогична той, что используется в представленной недавно модели OpenAI Sora, — рассказал VentureBeat Эмад Мостак (Emad Mostaque), генеральный директор Stability AI. — Это настоящий преемник оригинальной Stable Diffusion».

Stability AI экспериментирует с несколькими типами подходов к созданию изображений. Ранее в этом месяце компания выпустила предварительную версию Stable Cascade, которая использует архитектуру Würstchen для повышения производительности и точности. Stable Diffusion 3.0 использует другой подход, используя диффузионные модели-трансформеры. «Раньше у Stable Diffusion не было трансформера», — сказал Мостак.

Трансформеры лежат в основе большей части современных нейросетей, запустивших революцию в области искусственного интеллекта. Они широко используются в качестве основы моделей генерации текста. Генерация изображений в основном находилась в сфере диффузионных моделей. В исследовательской работе, в которой подробно описываются диффузионные трансформеры (DiT), объясняется, что это новая архитектура для диффузионных моделей, которая заменяет широко используемую магистраль U-Net трансформером, работающим на скрытых участках изображения. Применение DiT позволяет более эффективно использовать вычислительные мощности и превосходить другие подходы к диффузной генерации изображений.

Еще одна важная инновация, которой пользуется Stable Diffusion 3.0 — это согласование потоков. В исследовательской работе по сопоставлению потоков объясняется, что это новый метод обучения нейросетей с помощью «непрерывных нормализующих потоков» (Conditional Flow Matching — CNF) для моделирования сложных распределений данных. По мнению исследователей, использование CFM с оптимальными путями транспортировки приводит к более быстрому обучению, более эффективному отбору образцов и повышению производительности по сравнению с диффузионными путями.

Улучшенная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новую модель. Как пояснил Мостак, качественная генерация текстов на изображения стала возможной благодаря использованию диффузионной модели-трансформера и дополнительных кодировщиков текста. С помощью Stable Diffusion 3.0 стало возможным генерировать на изображениях полные предложения со связным стилем написания текста.

Хотя Stable Diffusion 3.0 изначально демонстрируется как технология искусственного интеллекта для преобразования текста в изображение, она станет основой для гораздо большего. В последние месяцы Stability AI также создаст нейросети для создания 3D-изображений и видео.

«Мы создаем открытые модели, которые можно использовать где угодно и адаптировать к любым потребностям, — сказал Мостак. — Это серия моделей разных размеров, которая послужит основой для разработки наших визуальных моделей следующего поколения, включая видео, 3D и многое другое».

Источник: 3Dnews.ru

Белорусские планшеты H-Tab с аккумуляторами до 15 600 мА·ч официально появились…

Китайские эксперты заявили, что безопасность твердотельных аккумуляторов сильно преувеличена

Огромный ноутбук, который может работать, как серверная платформа. Eurocom Raptor X18…

Google пустила в Android альтернативные магазины приложений — и тут же…

Для Nintendo Switch 2 могут появиться картриджи для игр меньшей ёмкости

Valve свернула производство Steam Deck с ЖК-дисплеем — самой доступной версии…

Разработчики Pioner раскрыли план обновлений, а пользователи «Игры Ростелеком» из-за последнего…

Кодзима объяснил, как понять загадочный хоррор OD — нужно посмотреть его…

Fortnite не выйдет на iOS в Японии — Epic Games обвинила…

Как китайские компании получают доступ к санкционным ускорителям Nvidia. Tencent заключила…

Пользователь покупал обычные GeForce RTX 3080 Ti, а купил редкие GeForce…

В 100 раз эффективнее новейших ускорителей Nvidia: в Китае создали первый…

16-контактный разъём продолжает выводить из строя видеокарты и блоки питания: новые…

Архитектура AMD Zen 6 ориентирована на высокую производительность и высокую пропускную…

Sony представила A7 V — свою первую полнокадровую камеру с частично-стековым сенсором и…

Первой цифровой камере Kodak исполнилось 50 лет — она весила 3,6…

Популярная камера для видеографов стала ещё лучше. Представлена Sony A7 V:…

Sony представила свой первый 200-Мп сенсор Lytia-901 для флагманских смартфонов —…

Представлена 35-мм плёночная камера Kodak Snapic A1 в стиле 90-х за…

В России создадут точки для распродаж изъятых автомобилей

Clair Obscur: Expedition 33 лишилась звания «Игра года» из-за генеративного ИИ

В Турции увидели жесткое предупреждение Западу от Путина

Северный магнитный полюс Земли переместился ещё ближе к России

Тесты батарей смартфонов показали неожиданные результаты

Сэм Альтман признался, что его абсолютно не прельщает идея быть главой…

Gemini не заменит Google Assistant на устройствах с Android — пока что

SoftBank срочно распродаёт активы и занимает деньги, чтобы успеть до конца…

Samsung представила Exynos 2600 — первый в мире 2-нм процессор для…

ИИ ломает Microsoft изнутри: Наделла потребовал от менеджеров внедрять ИИ —…

Анонсирована Stable Diffusion 3.0 — ИИ для рисования сменил архитектуру и научился писать

ОСТАВЬТЕ ОТВЕТ Отменить ответ

В России создадут точки для распродаж изъятых автомобилей