Телефоны

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

21 июля

Инженеры «Сбера» выложили в открытый доступ нейросетевую модель ruGPT-3.5, лежащую в основе сервиса GigaChat, который до сих пор проходит стадию закрытого тестирования. Лицензия MIT позволяет использовать материалы проекта в коммерческих целях.

Структура датасета ruGPT-3.5. Источник изображения: habr.com

Важнейшим недостатком открытых больших языковых моделей вроде Meta* LlaMA является ограниченная поддержка русского языка — обычно это русский раздел «Википедии» и некоторое количество общедоступных текстов. Это оказывает негативное влияние на понимание моделью языка и качество её ответов. Модель ruGPT-3.5, основанная на архитектуре OpenAI GPT-3, создана в первую очередь для работы в русскоязычной среде, поэтому она более качественно обрабатывает такие запросы.

Обучение модели производилось в два этапа. Первый этап продлился 1,5 месяца — за это время платформа обработала 300 Гбайт данных: книги, энциклопедийные и научные статьи, социальные ресурсы и другие источники. Потребовались ресурсы 512 ускорителей NVIDIA V100. На втором этапе проводилось дообучение на 110 Гбайт данных из датасета The Stack, юридических документов и обновлённых текстов «Википедии» — это заняло три недели и потребовало 200 ускорителей NVIDIA A100.

В результате у ruGPT-3.5 13 млрд параметров при длине контекста 2048 токенов — для сравнения, привели пример разработчики, рассказ А. П. Чехова «Хамелеон» разбивается на 1650 токенов при его длине в 901 слово.

* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Источник: 3Dnews.ru

Китай нацелился на активное внедрение IPv6 и адаптировал его для слежки…

ИИ вдохнул новую жизнь в жёсткие диски — производители HDD срочно…

Nvidia утверждает, что все её крупнейшие клиенты уже используют серверы на…

Дуров анонсировал «крупнейший в истории человечества» запуск криптокошелька — Gram встроят…

Human Fall Flat исполнилось 10 лет — 60 миллионов проданных копий,…

Массовые увольнения в Xbox ударили по магазину микротранзакций The Elder Scrolls…

Владелец Dungeons & Dragons списал 56 миллионов долларов из-за отмены игр…

Психологический триллер Lost in the Roots от авторов No, I’m not…

Darkest Dungeon спустя 10 лет после релиза получит дополнение с…

Не новое слово на рынке, но прорыв для Windows on Arm….

10 лет назад Nvidia представила одну из своих самых успешных графических…

Через семь дней Илон Маск представит один из самых амбициозных проектов…

Nvidia пообещала новые игровые видеокарты с трассировкой пути в миллион раз…

Зафиксирована первая «смерть» Ryzen 7 9850X3D. Процессор вышел из строя через…

Fujifilm выпустила одноразовые плёночные камеры QuickSnap — они позволят снять 27…

Leica выпустила 44-Мп полнокадровую камеру SL3-P за $6690 — она займёт…

Зум-камеры в смартфонах начнут снимать чётче — представлен сенсор Sony LYTIA 610…

Представлен Sony LYTIA L910 — первый мобильный сенсор на архитектуре LOFIC

DJI представила карманную камеру Osmo Pocket 4P с двумя объективами, «киношными»…

Освобожденных британских преступников предложили отправлять в ВСУ

Китай нацелился на активное внедрение IPv6 и адаптировал его для слежки…

Стали известны цены на новые смартфоны Samsung в России

Видеообзор робота-пылесоса Midea VCR V15 EVO ULTRA

Раскрыты данные об iPhone с рекордно большим экраном

Китай нацелился на активное внедрение IPv6 и адаптировал его для слежки…

ИИ вдохнул новую жизнь в жёсткие диски — производители HDD срочно…

Nvidia утверждает, что все её крупнейшие клиенты уже используют серверы на…

Sony разгневала общественность отказом от игровых дисков для PlayStation, хотя продаются…

Дуров анонсировал «крупнейший в истории человечества» запуск криптокошелька — Gram встроят…

«Сбер» выложил в открытый доступ русскоязычную ИИ-модель ruGPT-3.5

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Рубрики

Новости Hi-Tech

Human Fall Flat исполнилось 10 лет — 60 миллионов проданных копий, юбилейный уровень и...

Китай нацелился на активное внедрение IPv6 и адаптировал его для слежки за пользователями

Китай нацелился на активное внедрение IPv6 и адаптировал его для слежки за пользователями

Освобожденных британских преступников предложили отправлять в ВСУ

Китай нацелился на активное внедрение IPv6 и адаптировал его для слежки за пользователями

Human Fall Flat исполнилось 10 лет — 60 миллионов проданных копий,...