Софт

Google рассказала о своей нейронной технологии перевода

24 ноября

За последние десять лет популярный сервис Google Translate прошёл серьёзный эволюционный путь. Начиналось с поддержки всего нескольких языков, теперь этот сервис уже умеет работать со 103 языками, а каждый день с его помощью переводится более 140 миллиардов слов. Чтобы сделать это возможным, Google пришлось построить и поддерживать огромное количество распределённых систем. При этом вычислительные затраты оказались довольно большими.

24c04fe18099a071eba1dbb01c261e09

Новая система поддерживает обучение типа Zero-shot

Чтобы решить возникающие проблемы и повысить качество перевода Google интенсивно работает над новой технологией нейронного машинного перевода (GNMT, Google Network Machine Translation). Впервые она была анонсирована в сентябре этого года, а на прошлой неделе было объявлено о пробном запуске GNMT для восьми языков. Тогда никаких деталей Google не раскрыла, но с публикацией статьи «Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation» стали известны новые интересные подробности.

14ecec0e972c0b88e42556aeabf2eeb1

В GNMT используется трёхмерная репрезентация данных

Как отмечают разработчики, переход на GNMT действительно ощутимо улучшил качество перевода между языками, которые использовались для тестирования. Но масштабирование до поддержки всех 103 языков является настоящим вызовом. Обновлённая GNMT-технология позволяет одной системе осуществлять перевод сразу между несколькими языками. Предложенная архитектура не требует внесения изменений в ядро GNMT, но включает дополнительный токен, вставляющийся в начало предложения. Этот токен определяет, на какой язык нужно осуществить перевод. Отдельно отмечается так называемый метод Zero-shot Translation, который позволяет переводить отдельные фразы между языковыми парами, никогда ранее не встречающиеся. Zero-shot подразумевает такое обучение, когда ставится задача без наличия примеров решения похожих проблем. Например, стоит задача найти кота на фотографии. При этом фотографии с другими котами не показываются, а лишь даётся детальное описание того, как должен выглядеть кот.

Google демонстрирует это на примере GNMT с поддержкой трёх языков. Допустим, система проходит обучение для четырёх пар — с японского на английский, с английского на японский, с корейского на английский и с английского на корейский. В методе Zero-shot полученный опыт при переводе между этими парами используется для осуществления перевода тех же фраз между японским и корейским языками. По утверждению Google, такой тип обучения впервые использован в системах машинного перевода.

Вместо традиционного попарного перевода фраз (когда пары просто запоминаются в базе данных), Google использует так называемую трёхмерную репрезентацию данных. Нейронная сеть кодирует данные семантически. На разных языках такие семантические отпечатки будут выглядеть очень похоже, а построенная сеть называется интерлингвистической.

По мнению Google, результаты исследования будут интересны не только экспертам машинного обучения, но и лингвистам.

Источник: 3Dnews.ru

Экран этого ноутбука умеет «перетекать» на внешнюю сторону крышки. Lenovo готовит…

Будущую российскую орбитальную станцию привяжут к МКС — буквально

Уникальный ноутбук, экран которого из 16 дюймов разворачивается в 21 дюйм….

После скандала китайская Nexperia обеспечила себя местным кремнием на 2026 год —…

Кодзима объяснил, как понять загадочный хоррор OD — нужно посмотреть его…

Fortnite не выйдет на iOS в Японии — Epic Games обвинила…

В Steam стартовала закрытая «альфа» амбициозной ролевой игры Warhammer 40,000: Dark…

Кризис оперативной памяти вынудит Larian оптимизировать Divinity уже в раннем доступе

Из Just Cause 3 наконец удалили Denuvo, хотя игру уже восемь…

Процессоры AMD, произведённые Intel? AMD и Nvidia вслед за Apple интересуются…

Nvidia представила новую видеокарту с 72 ГБ памяти — RTX PRO…

TSMC ускоряет строительство фабрики по производству 3-нанометровых чипов в США: производство…

Взглянул на видеокарту — узнал погоду на улице. У ASRock Radeon…

Взрывной рост цен на память DDR5 перевернул рынок: подержанный Ryzen 7…

Sony представила A7 V — свою первую полнокадровую камеру с частично-стековым сенсором и…

Первой цифровой камере Kodak исполнилось 50 лет — она весила 3,6…

Популярная камера для видеографов стала ещё лучше. Представлена Sony A7 V:…

Sony представила свой первый 200-Мп сенсор Lytia-901 для флагманских смартфонов —…

Представлена 35-мм плёночная камера Kodak Snapic A1 в стиле 90-х за…

Северный магнитный полюс Земли переместился ещё ближе к России

Тесты батарей смартфонов показали неожиданные результаты

Apple выпустит компьютер с чипом от iPhone

ИИ ломает Microsoft изнутри: Наделла потребовал от менеджеров внедрять ИИ —…

Стоимость iPhone 17 Pro рухнула в России

SoftBank срочно распродаёт активы и занимает деньги, чтобы успеть до конца…

Samsung представила Exynos 2600 — первый в мире 2-нм процессор для…

ИИ ломает Microsoft изнутри: Наделла потребовал от менеджеров внедрять ИИ —…

Еврокомиссия отменила полный запрет продаж автомобилей с ДВС с 2035 года

Тодд Говард подтвердил, что Fallout 5 будет создаваться с учётом событий…

Google рассказала о своей нейронной технологии перевода

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Экран этого ноутбука умеет «перетекать» на внешнюю сторону крышки. Lenovo готовит...