Speaklone: клон голоса и потоковый TTS прямо на iPhone и Mac без облака — VogueTech

Что появилось / что изменилось

Соло‑разработчик запустил Speaklone — приложение для iOS и macOS, которое озвучивает текст и клонирует голос полностью офлайн. Под капотом — Qwen3-TTS, запущенный через MLX-Swift.

Главное по цифрам:

на macOS работает Qwen3-TTS 1.7B;
на iOS — облегчённая версия 0.6B;
обе модели квантованы до 5 бит, чтобы влезть в память смартфона;
пиковое потребление памяти при генерации — 2,7–3,5 ГБ, при этом на iOS действует лимит jetsam около 4 ГБ;
MLX‑кеш ограничен 512 МБ, общий потолок памяти — 3,5 ГБ.

Функциональность:

голосовой клон с коротких сэмплов — достаточно 5–30 секунд аудио;
режим «voice design»: вы описываете голос текстом (например, «тёплая женская дикторша, около 30 лет»), и модель синтезирует подходящее звучание без референса;
потоковая генерация: звук начинает проигрываться по кускам, пока модель ещё считает оставшуюся часть.

Приложение уже доступно в App Store под названием Speaklone.

Как это работает

Speaklone использует MLX-Swift — фреймворк Apple для машинного обучения на устройствах. Разработчик столкнулся с типичной для MLX проблемой: ленивые вычисления и вычислительные графы держат в памяти массивы дольше, чем нужно. На iPhone это быстро упирается в jetsam-лимит около 4 ГБ и приводит к вылетам.

Решение получилось довольно приземлённым:

жёсткий лимит кеша MLX — 512 МБ;
верхняя граница всей используемой памяти — 3,5 ГБ;
агрессивная очистка кеша между генерациями;
«жадное» преобразование тензоров в нативные типы по частям, чтобы рвать вычислительный граф и освобождать память;
чанковый декодинг аудио: модель выдаёт звук кусками, которые сразу же проигрываются.

Отдельный спорный, но рабочий выбор — квантовать не только веса модели, но и эмбеддинги. Обычно их оставляют в более высоком качестве, но здесь каждый мегабайт на счету. Разработчик утверждает, что при правильной настройке это даёт приемлемое качество голоса при заметной экономии памяти.

Голосовой клон и «voice design» работают в одной и той же пайплайне: в первом случае на вход идут сэмплы голоса, во втором — текстовое описание, которое задаёт целевой голосовой профиль.

Что это значит для вас

Если вы работаете с чувствительными данными — медициной, юрсферой, корпоративной перепиской — Speaklone интересен тем, что всё происходит локально. Никакого аплоада аудио и текста на сервер: запись, клон и синтез живут на устройстве.

Кому это может пригодиться:

контент‑криэйторам: озвучка роликов, подкастов, туториалов с собственным голосом без студии и без ожидания рендера в облаке;
продакт‑менеджерам и дизайнерам: быстрые прототипы голосовых ассистентов и интерфейсов прямо на тестовых девайсах;
разработчикам: тестировать он‑девайс TTS и голосовые фичи без поднятия серверной инфраструктуры;
людям, которые не хотят делиться голосом и текстами с внешними сервисами.

Где есть ограничения:

на старых iPhone и iPad с 4 ГБ ОЗУ приложение будет работать на пределе возможностей железа — это видно по цифрам памяти;
качество и стабильность голоса при 5‑битной квантизации и квантованных эмбеддингах может уступать тяжёлым облачным TTS‑сервисам;
если вы озвучиваете многочасовые аудиокниги и не боитесь облака, крупные сервисы с серверными GPU всё ещё будут быстрее и надёжнее.

Speaklone доступен только через App Store, так что пользователям Android и Windows придётся искать альтернативы. Для России актуальны обычные ограничения App Store: если у вас нет доступа к зарубежному аккаунту, приложение может быть недоступно без обходных схем.

Место на рынке

По классу продукта Speaklone конкурирует не с GPT-4o или Claude 3.5 Sonnet, а с голосовыми решениями уровня ElevenLabs, Azure Neural TTS и локальными пайплайнами на базе VITS или Bark.

Ключевое отличие — полный офлайн на iOS и macOS. Большинство коммерческих TTS‑сервисов требуют постоянного подключения к интернету и тарифицируют каждый символ. Здесь же вы платите за приложение (или внутриигровые покупки, если разработчик их добавит) и дальше не думаете о трафике и лимитах.

С другой стороны, разработчик честно поднимает болезненный вопрос: пользователи видят, что Qwen3-TTS — это открытые веса, и ожидают, что продукт будет бесплатным. При этом месяцы инженерной работы по оптимизации под память и MLX никто не отменял. Это реальный минус для монетизации по сравнению с облачными TTS‑платформами, где ценность проще объяснить как «мы даём вам API и сервера».

Если вам нужен максимально натуральный звук и вы готовы платить за облако, ElevenLabs и крупные провайдеры по качеству пока, скорее всего, впереди. Если важнее приватность, офлайн и отсутствие завязки на сервер, Speaklone выглядит интересным вариантом для экосистемы Apple — особенно для разработчиков, которые хотят понять, как далеко можно уехать с он‑девайс TTS на iPhone.