Софт

Google рассказала о своей нейронной технологии перевода

24 ноября

За последние десять лет популярный сервис Google Translate прошёл серьёзный эволюционный путь. Начиналось с поддержки всего нескольких языков, теперь этот сервис уже умеет работать со 103 языками, а каждый день с его помощью переводится более 140 миллиардов слов. Чтобы сделать это возможным, Google пришлось построить и поддерживать огромное количество распределённых систем. При этом вычислительные затраты оказались довольно большими.

Новая система поддерживает обучение типа Zero-shot

Чтобы решить возникающие проблемы и повысить качество перевода Google интенсивно работает над новой технологией нейронного машинного перевода (GNMT, Google Network Machine Translation). Впервые она была анонсирована в сентябре этого года, а на прошлой неделе было объявлено о пробном запуске GNMT для восьми языков. Тогда никаких деталей Google не раскрыла, но с публикацией статьи «Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation» стали известны новые интересные подробности.

В GNMT используется трёхмерная репрезентация данных

Как отмечают разработчики, переход на GNMT действительно ощутимо улучшил качество перевода между языками, которые использовались для тестирования. Но масштабирование до поддержки всех 103 языков является настоящим вызовом. Обновлённая GNMT-технология позволяет одной системе осуществлять перевод сразу между несколькими языками. Предложенная архитектура не требует внесения изменений в ядро GNMT, но включает дополнительный токен, вставляющийся в начало предложения. Этот токен определяет, на какой язык нужно осуществить перевод. Отдельно отмечается так называемый метод Zero-shot Translation, который позволяет переводить отдельные фразы между языковыми парами, никогда ранее не встречающиеся. Zero-shot подразумевает такое обучение, когда ставится задача без наличия примеров решения похожих проблем. Например, стоит задача найти кота на фотографии. При этом фотографии с другими котами не показываются, а лишь даётся детальное описание того, как должен выглядеть кот.

Google демонстрирует это на примере GNMT с поддержкой трёх языков. Допустим, система проходит обучение для четырёх пар — с японского на английский, с английского на японский, с корейского на английский и с английского на корейский. В методе Zero-shot полученный опыт при переводе между этими парами используется для осуществления перевода тех же фраз между японским и корейским языками. По утверждению Google, такой тип обучения впервые использован в системах машинного перевода.

Вместо традиционного попарного перевода фраз (когда пары просто запоминаются в базе данных), Google использует так называемую трёхмерную репрезентацию данных. Нейронная сеть кодирует данные семантически. На разных языках такие семантические отпечатки будут выглядеть очень похоже, а построенная сеть называется интерлингвистической.

По мнению Google, результаты исследования будут интересны не только экспертам машинного обучения, но и лингвистам.

Источник: 3Dnews.ru

10 100 мАч, большой экран 3К 165 Гц и 8 динамиков —…

MAX от VK назначен национальным мессенджером России

Grok Илона Маска обзавёлся странными ИИ-компаньонами — один из них предстал…

Инвесторы потребовали от Apple перестать заниматься ерундой и наконец сделать нормальный…

Следующее крупное обновление для Cyberpunk 2077 готовится к премьере — презентация…

Единственная официальная игра по «Джону Уику» скоро исчезнет из продажи

Опять за старое: разработчики God of War готовят следующий блокбастер, но…

Не всё так плохо: первый зампред Банка России сравнил экономику страны…

Анонсирован Majogami — стильный экшен-платформер про девушку с катаной, которая режет…

20-ядерная SoC Nvidia N1X для настольных ПК, которая обошла AMD Ryzen…

В Китае праздник: компании встраиваются в очередь за новейшими чипами Nvidia

Это один из самых редких x86-совместимых процессоров. Коллекционер похвастался экземпляром CPU…

Реальный спрос на системы на базе Nvidia GB10 оказался «в несколько…

Многострадальные процессоры Intel Raptor Lake оказались метеозависимыми. Волны жары в Европе…

Canon бросила вызов Sony, представив высокочувствительный датчик изображения для автомобилей

Fujifilm представила беззеркальную камеру X-E5 в лаконичном ретро-стиле за $1700

«Яндекс» выпустил умную IP-камеру с подпиской

DJI готовит к выпуску три новых дрона и камеру Osmo Nano

Nikon поднимет цены на свою продукцию в США через месяц из-за…

Rockstar начала отключать функции Social Club — студия может готовить новую…

Госдума приняла закон о цифровом рубле

По итогам второго квартала Samsung удалось увеличить отрыв от Apple в…

«Ремастер, который мы заслужили»: спустя 10 лет популярный графический мод iCEnhancer…

Крупнейшие сайты с пиратскими играми изъяты и перешли под контроль ФБР

Мир безнадёжно отстал от Китая в переходе на солнечную и ветряную…

Samsung отменила конец эпохи стилусов, пообещав возвращение S Pen в улучшенном…

Один сбитый бит — и всё пропало: атака GPUHammer на ускорители…

KFC вместе с Asus ROG выпустила уникальные кейкапы для геймерских клавиатур

Самый богатый человек Индии намерен превратить каждый телевизор в ПК

Google рассказала о своей нейронной технологии перевода

ОСТАВЬТЕ ОТВЕТ Отменить ответ

20-ядерная SoC Nvidia N1X для настольных ПК, которая обошла AMD Ryzen...