Google представив Translatotron — перший інструмент, який може одразу перекладати усне мовлення і зберігати інтонації голосу та частоту мовлення. Технологія не трансформує мовлення у текст, щоб потім озвучити його іншою мовою (та припуститися значної кількості помилок на цьому шляху), а перекладає одразу. Компанія сподівається, що ця розробка допоможе у створенні й розвитку нових технологій прямого перекладу.
Translatotron використовує модель sequence-to-sequence (послідовність-до-послідовності), яка отримує голосовий сигнал, тоді обробляє його як спектрограму — візуалізацію частот — і генерує нову спектрограму потрібною мовою. Тоді переклад відбувається швидше і точніше, ніж у каскадній моделі (коли голос переводять у текст).
Схема роботи Translatotron:
Також новий інструмент зберігає паузи, інтонації та голос мовця. Звісно, технологія ще не ідеальна: голос у перекладі все одно відрізняється і звучить дещо роботизовано (приклади можна послухати на Github). Однак інструмент будуть удосконалювати й він цілком може стати основою для більш довершених програм.
Ще немає коментарів