- Дата публикации
GroqCloud подключил Orpheus TTS: быстрый английский и саудовский арабский с поминутной оплатой текста
Что появилось / что изменилось
Groq добавил на GroqCloud два текст‑в‑речь движка Canopy Labs Orpheus, которые заменяют старые PlayAI-TTS и PlayAI-TTS-Arabic:
-
Английский TTS:
canopylabs/orpheus-v1-english- Поддержка "vocal directions" — управляющих тегов в квадратных скобках, например:
[cheerful],[whisper]. - Шесть профессионально озвученных английских голосов.
- Обучение на 100 000+ часов англоязычной речи и миллиардах текстовых токенов.
- Поддержка "vocal directions" — управляющих тегов в квадратных скобках, например:
-
TTS для саудовского арабского диалекта:
canopylabs/orpheus-arabic-saudi- Четыре голоса с аутентичным произношением и региональными нюансами.
- Vocal directions пока не работают.
Оба варианта доступны через OpenAI-совместимый endpoint:
https://api.groq.com/openai/v1/audio/speech
Производительность и цены:
- Скорость генерации: до ~100 символов в секунду для обоих языков.
- Поминутная оплата текста (per character), а не за аудио‑минуты:
canopylabs/orpheus-v1-english— $22 за 1 000 000 символов.canopylabs/orpheus-arabic-saudi— $40 за 1 000 000 символов.
Как это работает
GroqCloud отдаёт Orpheus как обычный HTTP‑endpoint, который повторяет формат OpenAI Audio API. Если у вас уже есть код под openai.audio.speech, вы почти буквально меняете базовый URL на https://api.groq.com/openai/v1/audio/speech и имя модели на canopylabs/orpheus-v1-english или canopylabs/orpheus-arabic-saudi.
Ключевые моменты под капотом:
- Стриминг низкой задержки: сервер начинает отдавать аудио по мере генерации, а не ждёт завершения всего текста. Отсюда скорость до 100 символов/с.
- Фиксированная тарификация по символам: Groq считает каждый символ текста и выставляет счёт за блоки по 1 млн символов. Это удобно для чат‑ботов и IVR, где сложно предсказать длину аудио.
- Мультирежимные голоса в английском варианте: движок читает управляющие теги и меняет интонацию, громкость и тембр, не ломая остальной текст.
- Специализация по диалекту для
orpehus-arabic-saudi: модель обучили именно на саудовском варианте арабского, а не на усреднённом MSA, поэтому звучание ближе к живой речи из региона.
Что это значит для вас
Когда Orpheus на GroqCloud имеет смысл:
- Голосовые ассистенты и агенты. Вам нужна быстрая, естественная речь в диалоге: бот не должен делать длинную паузу перед ответом. При 100 символах в секунду фраза на 300–400 символов укладывается в несколько секунд.
- Службы поддержки и IVR. Текстовые сценарии можно динамически собирать и озвучивать без предварительной студийной записи. Английский и саудовский арабский покрывают типичный сценарий международного колл‑центра в регионе MENA.
- Доступность и ассистивные технологии. Экранные дикторы, голосовое сопровождение интерфейсов, подсказки в приложениях — когда нужна предсказуемая цена за символ.
- Креатив и продакшн. Озвучка роликов, подкастов, сторителлинг, прототипирование персонажей. В английском варианте удобно разметить сценарий тегами
[angry],[whisper],[cheerful]и быстро проверить, как звучит сцена.
Когда инструмент вам вряд ли подойдёт:
- Вам нужен русский язык или другие диалекты арабского, кроме саудовского — Orpheus сейчас ограничен английским и Saudi Arabic.
- Вам критична сверхдешёвая массовая озвучка длинных аудиокниг на английском: $22 за миллион символов — это комфортный, но не минимальный ценник на рынке.
- Вы не готовы работать через зарубежный облачный сервис. GroqCloud юридически и технически — иностранная платформа. Из России к ней могут потребоваться VPN и обходы платёжных ограничений.
Если вы уже используете PlayAI-TTS или PlayAI-TTS-Arabic на GroqCloud, Orpheus — прямой путь к более выразительной английской озвучке и более естественному саудовскому арабскому без изменения архитектуры.
Место на рынке
Groq и Canopy Labs не называют прямые сравнения с конкурентами по скорости и качеству, поэтому честно: точных цифр «быстрее GPT-4o на X%» нет.
Что можно сказать по фактам:
- Скорость: заявленные ~100 символов/с — это сопоставимо с быстрыми TTS‑сервисами уровня ElevenLabs, Azure Neural TTS или OpenAI TTS. Для диалоговых агентов этого обычно достаточно, чтобы пользователь не чувствовал задержку.
- Цена:
- $22 за 1M символов для английского — средний сегмент. Есть более дешёвые TTS‑решения, но они часто проигрывают по естественности и голосам.
- $40 за 1M символов для саудовского арабского — нишевый, но логичный ценник: специализированные диалекты обычно стоят дороже массового английского.
- Функциональность:
- Vocal directions в английском Orpheus дают более тонкий контроль над интонацией, чем у многих базовых TTS от облаков, где вы меняете только скорость и тон.
- Саудовский диалект с четырьмя голосами — редкая опция. Большинство крупных провайдеров (Google Cloud, Amazon Polly, Microsoft Azure) упираются в стандартный арабский (MSA) или общий Gulf Arabic, а не в отдельный Saudi.
Слабые места по сравнению с крупными игроками:
- Нет поддержки русского и большинства европейских языков.
- Нет встроенной экосистемы типа "один аккаунт — и GPT-5, и TTS, и vision". Orpheus — часть GroqCloud, и вам всё равно придётся комбинировать его с другими LLM‑сервисами, если нужен полный стек.
Если вы уже строите голосовые продукты на Groq или вам важен именно саудовский арабский с низкой задержкой, Orpheus выглядит практичным рабочим вариантом. Если же вы только выбираете TTS под мультиязычный продукт с русским и европейскими языками, придётся смотреть шире и сравнивать с Google, Microsoft, ElevenLabs и OpenAI по своим тестовым скриптам.