Почему машинный перевод стал таким хорошим

Ещё в 2014 году Google Translate выдавал смешные ошибки в каждой фразе. Сегодня он переводит научные статьи почти без правок. Что произошло?

Эра "переводчика-словаря": 2000-2014

Раньше переводчики работали по простому принципу: брали огромную базу примеров переведённых текстов ("параллельный корпус") и подбирали наиболее частое соответствие. Это называется statistical machine translation — SMT.

Проблема: машина не понимала смысл. Она видела только слова и их сочетания. Поэтому простые фразы переводились хорошо, а сложные предложения превращались в кашу.

Революция нейросетей: 2016

В 2016 Google запустил Google Neural Machine Translation (GNMT). Вместо подбора по статистике система начала "понимать" контекст с помощью нейронных сетей.

Если очень упрощённо: нейросеть превращает фразу в "облако смыслов" (математический вектор), а потом из этого облака генерирует фразу на другом языке. Машина не переводит слова — она переводит смыслы.

Что такое Transformer

В 2017 году появилась архитектура Transformer (та самая, что лежит в основе ChatGPT). Она научилась учитывать связи между всеми словами в предложении одновременно. Так машина наконец-то стала "видеть" длинные конструкции целиком.

Почему DeepL обычно лучше Google

DeepL обучался на меньшей, но более качественной базе текстов — в основном на профессиональных переводах с европейских языков. Поэтому его европейские переводы (немецкий, французский, русский) часто звучат естественнее. Зато для редких языков (тайский, амхарский) Google Translate сильнее — у него больше данных.

Где машинный перевод всё ещё ошибается

Юмор и каламбуры — игра слов почти всегда теряется
Художественные тексты — поэзия и проза с авторским стилем
Специализированные термины — медицина, юриспруденция
Контекст из нескольких страниц — машина "помнит" только текущий абзац
Культурные реалии — то, что в одной культуре очевидно, в другой нужно объяснять

Что будет дальше

Большие языковые модели (LLM) типа GPT-4 и Claude уже превосходят классические переводчики в качестве. Они понимают контекст, могут спросить уточнение, адаптировать стиль. Возможно, скоро отдельных "переводчиков" не будет — будут универсальные ИИ-ассистенты, для которых перевод — одна из множества задач.

А пока — наш совет

Используйте несколько переводчиков параллельно. На нашем сайте можно переводить через Google, LibreTranslate и MyMemory одной кнопкой — сравнивайте результаты для важных текстов.

Почему машинный перевод стал таким хорошим

Эра "переводчика-словаря": 2000-2014

Революция нейросетей: 2016

Что такое Transformer

Почему DeepL обычно лучше Google

Где машинный перевод всё ещё ошибается

Что будет дальше

А пока — наш совет

Share article

Related articles

DeepL или Google Translate: что я выбираю и почему

Локализация vs перевод: в чём разница