- Дата публикации
Speaklone: клон голоса и потоковый TTS прямо на iPhone и Mac без облака
Что появилось / что изменилось
Соло‑разработчик запустил Speaklone — приложение для iOS и macOS, которое озвучивает текст и клонирует голос полностью офлайн. Под капотом — Qwen3-TTS, запущенный через MLX-Swift.
Главное по цифрам:
- на macOS работает Qwen3-TTS 1.7B;
- на iOS — облегчённая версия 0.6B;
- обе модели квантованы до 5 бит, чтобы влезть в память смартфона;
- пиковое потребление памяти при генерации — 2,7–3,5 ГБ, при этом на iOS действует лимит jetsam около 4 ГБ;
- MLX‑кеш ограничен 512 МБ, общий потолок памяти — 3,5 ГБ.
Функциональность:
- голосовой клон с коротких сэмплов — достаточно 5–30 секунд аудио;
- режим «voice design»: вы описываете голос текстом (например, «тёплая женская дикторша, около 30 лет»), и модель синтезирует подходящее звучание без референса;
- потоковая генерация: звук начинает проигрываться по кускам, пока модель ещё считает оставшуюся часть.
Приложение уже доступно в App Store под названием Speaklone.
Как это работает
Speaklone использует MLX-Swift — фреймворк Apple для машинного обучения на устройствах. Разработчик столкнулся с типичной для MLX проблемой: ленивые вычисления и вычислительные графы держат в памяти массивы дольше, чем нужно. На iPhone это быстро упирается в jetsam-лимит около 4 ГБ и приводит к вылетам.
Решение получилось довольно приземлённым:
- жёсткий лимит кеша MLX — 512 МБ;
- верхняя граница всей используемой памяти — 3,5 ГБ;
- агрессивная очистка кеша между генерациями;
- «жадное» преобразование тензоров в нативные типы по частям, чтобы рвать вычислительный граф и освобождать память;
- чанковый декодинг аудио: модель выдаёт звук кусками, которые сразу же проигрываются.
Отдельный спорный, но рабочий выбор — квантовать не только веса модели, но и эмбеддинги. Обычно их оставляют в более высоком качестве, но здесь каждый мегабайт на счету. Разработчик утверждает, что при правильной настройке это даёт приемлемое качество голоса при заметной экономии памяти.
Голосовой клон и «voice design» работают в одной и той же пайплайне: в первом случае на вход идут сэмплы голоса, во втором — текстовое описание, которое задаёт целевой голосовой профиль.
Что это значит для вас
Если вы работаете с чувствительными данными — медициной, юрсферой, корпоративной перепиской — Speaklone интересен тем, что всё происходит локально. Никакого аплоада аудио и текста на сервер: запись, клон и синтез живут на устройстве.
Кому это может пригодиться:
- контент‑криэйторам: озвучка роликов, подкастов, туториалов с собственным голосом без студии и без ожидания рендера в облаке;
- продакт‑менеджерам и дизайнерам: быстрые прототипы голосовых ассистентов и интерфейсов прямо на тестовых девайсах;
- разработчикам: тестировать он‑девайс TTS и голосовые фичи без поднятия серверной инфраструктуры;
- людям, которые не хотят делиться голосом и текстами с внешними сервисами.
Где есть ограничения:
- на старых iPhone и iPad с 4 ГБ ОЗУ приложение будет работать на пределе возможностей железа — это видно по цифрам памяти;
- качество и стабильность голоса при 5‑битной квантизации и квантованных эмбеддингах может уступать тяжёлым облачным TTS‑сервисам;
- если вы озвучиваете многочасовые аудиокниги и не боитесь облака, крупные сервисы с серверными GPU всё ещё будут быстрее и надёжнее.
Speaklone доступен только через App Store, так что пользователям Android и Windows придётся искать альтернативы. Для России актуальны обычные ограничения App Store: если у вас нет доступа к зарубежному аккаунту, приложение может быть недоступно без обходных схем.
Место на рынке
По классу продукта Speaklone конкурирует не с GPT-4o или Claude 3.5 Sonnet, а с голосовыми решениями уровня ElevenLabs, Azure Neural TTS и локальными пайплайнами на базе VITS или Bark.
Ключевое отличие — полный офлайн на iOS и macOS. Большинство коммерческих TTS‑сервисов требуют постоянного подключения к интернету и тарифицируют каждый символ. Здесь же вы платите за приложение (или внутриигровые покупки, если разработчик их добавит) и дальше не думаете о трафике и лимитах.
С другой стороны, разработчик честно поднимает болезненный вопрос: пользователи видят, что Qwen3-TTS — это открытые веса, и ожидают, что продукт будет бесплатным. При этом месяцы инженерной работы по оптимизации под память и MLX никто не отменял. Это реальный минус для монетизации по сравнению с облачными TTS‑платформами, где ценность проще объяснить как «мы даём вам API и сервера».
Если вам нужен максимально натуральный звук и вы готовы платить за облако, ElevenLabs и крупные провайдеры по качеству пока, скорее всего, впереди. Если важнее приватность, офлайн и отсутствие завязки на сервер, Speaklone выглядит интересным вариантом для экосистемы Apple — особенно для разработчиков, которые хотят понять, как далеко можно уехать с он‑девайс TTS на iPhone.