Як мобільні додатки для перекладу усувають ганебні ляпи

Автор фото, Getty Images
- Author, Емма Вулкотт
- Role, Бізнес-кореспондент ВВС
Мобільні додатки для перекладу вдосконалюються щодня. Втім, вони й досі не ідеальні. Особливо коли йдеться про мови національних меншин. Чи допоможуть глибокі нейронні мережі та штучний інтелект згладити незручні ляпи?
За даними компанії Google, під час Чемпіонату світу з футболу-2018, який цього літа проводили в Росії, був колосальний сплеск у користуванні Google Translate. За допомогою цього перекладацького засобу футбольні фани намагалися підтримувати розмови з господарями чемпіонату та вболівальниками з інших країн світу.
Особливим попитом користувалися слова "стадіон" і "пиво".
Сьогодні традиційні книжки-розмовники вже відходять у минуле. Як показало опитування, нещодавно проведене British Council, близько двох третин респондентів віком від 16 до 34 років тепер покладаються на мобільні додатки для перекладу, коли їм потрібна допомога в спілкуванні з місцевим населенням країни, де вони опинилися.
Звичайно, ці додатки вдосконалюються з кожним днем. Але все одно їх не можна вважати абсолютно надійними. П'ята частина респондентів повідомила, що під час відпусток у них виникали непорозуміння - через неправильний переклад, який їм запропонував телефон.
Особливо гостро ця проблема постає для мовців, що належать до національних меншин.
Наприклад, валійці (жителі Уельсу) постійно помічають "неадекватні" переклади. Зокрема, напис на застережному знаку "Увага, ведуться вибухові роботи" переклали як "Gweithwyr yn ffrwydro" ("Робітники вибухають").
А влітку цього року користувач Google Translate виявив цікаву річ: якщо набрати слово "dog" (собака) 18 разів, то переклад мовою маорі звучатиме так: "Годинник Судного дня показує три хвилини до дванадцятої. Ми переживаємо характери й розвиток драматичних подій у світі, що свідчить про невпинне наближення до кінця часів та повернення Ісуса".
Тож чому в епоху суперкомп'ютерів і машинного навчання досі з'являються глюки перекладу?
Велика проблема - в багатозначності слів. Часто вони мають більш ніж одне значення. Ці так звані омографи можуть завести в глухий кут не лише відпочивальників, а й уряди країн.
Візьмімо, наприклад, неоковирну німецькомовну версію експертної доповіді з Brexit, випущену в липні, де фразу "реалізація демократії" переклали як "demokratische Übung", хоча "Übung" означає фізичні вправи, а не практику.
Щоб уникнути таких помилок, розробники додатків для перекладу постійно вдосконалюють методи машинного навчання. Надаючи користувачу відповідь, ці програми використовують попередньо перекладені тексти. У них вони перевіряють контекст вживання слова і вибирають найімовірніше значення.
На початку 2018 року компанія Microsoft оголосила, що їй вдалося досягти "рівня якості перекладів, який можна порівняти з людським". Машинними засобами було перекладено декілька газетних статей з китайської мови на англійську, і група незалежних експертів встановила, що їхня якість не поступається перекладам від двох професійних перекладачів.
Як пояснюють у Microsoft, причина цього значного здобутку - використання глибоких нейронних мереж, а також статистичного машинного перекладу.
Простіше кажучи, для цього машині знадобилося відшліфувати перший "приблизний" переклад, кілька разів переглядаючи результати під різними кутами, порівнюючи, зіставляючи й навчаючись, подібно до того, як це робить людина.
Спочатку відбувається грубий переклад, який потім шліфується шляхом повторення різних варіантів, їхнього порівняння і, в кінцевому підсумку, навчання. Схожим чином перекладу навчаються і люди.
Розроблений компанією інструмент для перекладу має чітке уявлення про граматичну структуру речення в кожній мові, яке склалося з масиву виконаних раніше перекладів.
Машинний переклад, якість якого можна порівняти з якістю перекладу, виконаним людиною, здається досить вражаючим досягненням. Але навіть в Microsoft визнають, що переклад новинних статей - не те ж саме, що переклад живої розмови, для якої властиві ідіоми, акценти та діалектичні особливості.
Торік компанія Google представила бездротові навушники-вкладки Pixel Buds, які в режимі реального часу перекладають із 40 мов (хоча точність їхнього перекладу досі залишається дискусійною). А в нью-йоркському стартапі Waverly Labs розробили власну модель навушника - Pilot Translating Earpiece - і програму для смартфона, яка, за твердженням представників компанії, може перекладати з 15 мов практично в режимі реального часу.

Автор фото, Waverly Labs
Та коли дві мови перекладу такі рідкісні, що для них не існує широкої бази перекладених документів (наприклад, із сингальської на пушту), проблема ускладнюється.
Можна зробити переклад з сингальської англійською, а потім перекласти цей результат на пушту, однак внаслідок цього неминуче виникнуть помилки, про які вже йшлося вище.
Стосовно апокаліптичного тлумачення множини собак маорійською, то причиною дивного результату може бути те, що для рідкісних мов програми занадто покладаються на наявні документи обома мовами. У цьому випадку таким документом є Біблія.
"Якщо тренувати свою модель за допомогою паралельних речень з оригіналу та перекладу давнього манускрипта, а потім спробувати перекласти розмову між сучасними людьми, може статися конфуз, тому що за змістом і стилем сучасні розмови дуже відрізняються від стародавніх писань", - розповідає дослідник штучного інтелекту в компанії Facebook Гійом Лампл.
"А ще модель може згенерувати сегменти слів, які знайшла у тих писаннях. Така проблема, найпевніше, виникатиме з мовами, для яких існує мало ресурсів, тож і кількість паралельних речень дуже мала, а суттєвий загальний обсяг паралельних даних являють собою стародавні документи".
Але новий проект пана Лампла та групи інших дослідників з компанії Facebook і Університету Сорбонна в Парижі може запропонувати спосіб уникнути цієї проблеми.
Вчені використовують тексти оригіналів, що складаються всього з кількохсот тисяч речень кожної мови, але жодних безпосередньо перекладених речень.
Фактично їхня система вивчає шаблони, за якими вживаються слова. Наприклад, слова "кіт" і "пухнастий" в англійській мові мають тенденцію виникати в такому самому взаємозв'язку, як "gato" і "peludo" в іспанській. Система вивчає ці так звані вектори представлення слова, що дозволяє їй отримати "доволі точний" двомовний словник.
Далі вона застосовує такі самі техніки перевірки, як і Microsoft Translator, щоб створити остаточний варіант перекладу - і до біблійних текстів як довідкового матеріалу не звертається.
Пан Лампл зазначає, що техніку створення шаблонів можна використовувати ширше, ніж для мов, що перебувають у сучасному вжитку. Наприклад, за допомогою цього методу можна розшифровувати мертві мови.
"Втім, є значна перепона - кількість речень цими мовами, які ми можемо зібрати. Наприклад, рукопис Войнича (кодекс XV століття, який досі не можуть перекласти) містить лише кількасот сторінок тексту, що замало для роботи нашої моделі", - зізнається вчений.
"Але якби нам вдалося зібрати адекватну кількість тексту, ми могли б реанімувати мертві мови".
Однак це ще не все - далі відкриваються цікавіші перспективи.
"А що, як вдасться поспілкуватися з доброзичливими прибульцями? - розмірковує пан Лампл. - Тільки спершу треба, щоб вони наговорили багато тексту, до того ж на такі теми, на які ми спілкуємося між собою".
Можливо, це саме той випадок, коли "Труднощі перекладу" вдало доповнюють "Загублених у космосі"?
Хочете отримувати найцікавішісаттті в месенджер? Підписуйтеся на наш Telegram.











