Google відкрив код технології, на якій базується Live Transcribe — інструмент, що перетворює мовлення у текст. Ознайомитись з цим вихідним кодом можна на GitHub.
Live Transcribe вийшов у лютому цього року. Цей інструмент використовує алгоритми машинного навчання, щоб перетворити звук в текст в режимі реального часу. Його створили, передусім, для людей з вадами слуху.
Live Transcribe відрізняється від анонсованої Android функції Live Caption, тому що має повноекранний режим, використовує мікрофон (вбудований або зовнішній) і послуговується Google Cloud Speech API.
У режимі реального часу він може транскрибувати текст 70 мовами й діалектами. Це працює і навпаки — текст трансформується в аудіо. Інструмент встановлений на 1,8 млрд Android-пристроїв.
Деякі функції опублікованої на GitHub технології:
- нескінченна потокова передача;
- підтримка 70+ мов, є українська;
- текст не втрачається, якщо сталися перебої в мережі, повідомлення просто затримається;
- стійкість до серверних помилок;
- кодування Opus, AMR-WB та FLAC легко вмикаються і налаштовуються;
- можливість масштабування на офлайн-моделі;
- є бібліотека форматування тексту для візуалізації;
- ідентифікація мовця і виділення його тексту певним кольором та інші функції.
Google підкреслює, що надані бібліотеки пройшли усі тестування і вони практично такі самі, як бібліотеки застосунку Live Transcribe.
Ще немає коментарів