Синтез голосу в Python

06 лютого 2015 14:26 comandante 733 3

Комп'ютерні системи, які використовують для створення штучної мови називають синтезаторами мови. Вони можуть бути реалізовані в програмному забезпеченні або апаратних продуктах. Text-to-speech (TTS) система перетворює звичайний текст в мову. Як ми можемо використовувати синтез мови в Python?

Pyttsx

Pyttsx є кроссплатформенна (Mac OSX, Windows і Linux) бібліотека. Ви можете додати набір голосових метаданих, таких як вік, стать, id, мова та ім'я. Speech engine поставляється з великою кількістю голосів. На жаль, за замовчуванням голос звучить дуже "роботизовано".

Інсталювання:

sudo pip install pyttsx

Створимо програму speech1.py:

import pyttsx
engine = pyttsx.init()
engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

І виконайте її з Python.

Espeak

eSpeak - це компактний open source програмний синтезатор мови з підтримкою англійської та інших мов для Linux і Windows.

Встановлення:

sudo apt-get install espeak

Створимо програму speech2.py:

import pyttsx
engine = pyttsx.init()
engine.say('The quick brown fox jumped over the lazy dog.')
engine.runAndWait()

І виконайте її з Python.

GoogleTTS

Цікавий скрипт на Github, який використовує Google speech engine. Сценарій поставляється з великою кількістю опцій. Мова зберігається в формати mp3. Ми додали команду для автоматичного відтворення mp3:

os.system("mpg321 out.mp3 -quiet")

Запустіть:

python gtts.py -s 'Python programming example'

Голос дуже природній. Єдиним недоліком є те, що ви повинні бути підключені до інтернету для запуску скрипта.

Висновок

GoogleTTS - це найбільш природний рушій синтезу мови. Інші TTS двигуни прості у використанні, але не відповідають якості звучання. На жаль, кількість доступних голосів обмежена.

python, espeak, speech engine, pyttsx