Что такое Amazon Polly
Amazon Polly — это облачный сервис от Amazon, который превращает текст в живую речь. Он использует технологию глубокого обучения, чтобы голоса звучали естественно, а не как роботы из прошлого. Подходит для озвучки аудиокниг, видео, голосовых ассистентов, обучающих роликов — чего угодно.
Главная фишка: больше 30 языков и 100+ голосов, включая русский (голос «Татьяна») и региональные варианты английского, немецкого, французского, японского, китайского. Сервис работает через веб-консоль AWS или через API — можно встроить в свой сайт или приложение.
Функции Amazon Polly
- Синтез в реальном времени — получаешь аудио почти мгновенно, без долгих очередей. Хорошо для чат-ботов или интерактивных голосовых подсказок.
- SSML-разметка — управляй интонацией, паузами, ударениями, шепотом и даже дыханием. Прямо в текст добавляешь теги как в HTML, и голос звучит живее.
- Эмоциональные и разговорные стили — для некоторых голосов можно выбрать «радость», «разочарование» или «шепот». Это оживляет диалоги.
- Пакетная обработка — загружаешь большой текст (например, целую главу книги), и Polly обрабатывает её в фоне, сохраняя результат в вашу S3-папку.
- Настройка скорости, высоты и громкости — не нужно перезаписывать исходник, просто крутишь ползунки или прописываешь параметры в запросе.
- Нейтральные и новостные голоса — подходят для дикторов, подкастов и навигаторов. Можно выбрать «мужской/женский» и даже детский тембр (на английском).
Как пользоваться Amazon Polly
- Зарегистрируйтесь в AWS — понадобится почта и карта (для бесплатного уровня списаний не будет).
- Зайдите в консоль Polly — через поиск или напрямую: aws.amazon.com/polly.
- Выберите вкладку «Text-to-Speech» — вставьте текст или напишите пару предложений.
- Укажите язык и голос — например, русский и Татьяна, или английский с эмоциональным голосом Matthew.
- Настройте произношение — можно добавить SSML-теги или просто ползунками изменить скорость.
- Нажмите «Listen to speech» — сразу услышите результат. Если нравится — скачайте MP3 или отправьте в облако (S3).
Для тех, кто пишет код: есть SDK (Python, Node.js, Java и др.) — достаточно пары строк, чтобы сгенерировать речь через API.
Регистрация и тарифы
Регистрация нужна — создаёте учётную запись AWS (через почту или аккаунт Amazon).
- Бесплатный уровень: 5 миллионов символов в месяц в течение первого года. Этого хватит на ~60 часов обычной речи (или 40 часов нейтральной).
- После года — плата за каждый миллион символов (около $4 за «нейтральные» голоса, $16 за «нейронные»). Детали — на странице ценообразования.
- Лимиты на бесплатном уровне нет жёстких — просто после превышения начнут списывать деньги (можно настроить бюджетные оповещения).
- Языки интерфейса консоли — английский, японский, корейский, китайский, немецкий, испанский и др. (русского нет, но сам синтез на русском работает отлично).
Особенности Amazon Polly
- более 100 голосов и 30+ языков, включая русский, арабский, нидерландский и валлийский.
- доступ через веб-консоль (Web UI) и через API (REST, SDK, CLI).
- интеграция с другими сервисами AWS — Lambda, S3, CloudFront, Amazon Connect.
- экспорт в MP3, OGG (Vorbis) и PCM (WAV-подобный без сжатия).
- режимы «нейронные» и «стандартные» — нейронные звучат почти как человек, но стоят дороже.
- поддержка SSML с тегами whisper, emphasis, prosody, say-as и другими.
- можно генерировать речь пачками — загрузили 1000 строк в CSV, получили 1000 аудиофайлов в S3.
Заключение
Amazon Polly — это зрелый, надёжный TTS-сервис от Amazon. Он не самый дешёвый, но очень стабильный и масштабируемый. Особенно полезен, если вы уже сидите в экосистеме AWS. Для простых задач хватит бесплатного слота на год, а для бизнеса — прозрачные цены и возможность регулировать нагрузку. Из минусов: консоль не очень дружелюбна к новичкам, а регистрация требует карту (даже для бесплатного периода). Но качество голосов (особенно нейронных) — одно из лучших на рынке.

