Почему машинный перевод стал таким хорошим
Ещё в 2014 году Google Translate выдавал смешные ошибки в каждой фразе. Сегодня он переводит научные статьи почти без правок. Что произошло?
Эра "переводчика-словаря": 2000-2014
Раньше переводчики работали по простому принципу: брали огромную базу примеров переведённых текстов ("параллельный корпус") и подбирали наиболее частое соответствие. Это называется statistical machine translation — SMT.
Проблема: машина не понимала смысл. Она видела только слова и их сочетания. Поэтому простые фразы переводились хорошо, а сложные предложения превращались в кашу.
Революция нейросетей: 2016
В 2016 Google запустил Google Neural Machine Translation (GNMT). Вместо подбора по статистике система начала "понимать" контекст с помощью нейронных сетей.
Если очень упрощённо: нейросеть превращает фразу в "облако смыслов" (математический вектор), а потом из этого облака генерирует фразу на другом языке. Машина не переводит слова — она переводит смыслы.
Что такое Transformer
В 2017 году появилась архитектура Transformer (та самая, что лежит в основе ChatGPT). Она научилась учитывать связи между всеми словами в предложении одновременно. Так машина наконец-то стала "видеть" длинные конструкции целиком.
Почему DeepL обычно лучше Google
DeepL обучался на меньшей, но более качественной базе текстов — в основном на профессиональных переводах с европейских языков. Поэтому его европейские переводы (немецкий, французский, русский) часто звучат естественнее. Зато для редких языков (тайский, амхарский) Google Translate сильнее — у него больше данных.
Где машинный перевод всё ещё ошибается
- Юмор и каламбуры — игра слов почти всегда теряется
- Художественные тексты — поэзия и проза с авторским стилем
- Специализированные термины — медицина, юриспруденция
- Контекст из нескольких страниц — машина "помнит" только текущий абзац
- Культурные реалии — то, что в одной культуре очевидно, в другой нужно объяснять
Что будет дальше
Большие языковые модели (LLM) типа GPT-4 и Claude уже превосходят классические переводчики в качестве. Они понимают контекст, могут спросить уточнение, адаптировать стиль. Возможно, скоро отдельных "переводчиков" не будет — будут универсальные ИИ-ассистенты, для которых перевод — одна из множества задач.
А пока — наш совет
Используйте несколько переводчиков параллельно. На нашем сайте можно переводить через Google, LibreTranslate и MyMemory одной кнопкой — сравнивайте результаты для важных текстов.