Дата публикации
ai_products

Google TurboQuant напугал рынок памяти: что он реально меняет для ИИ и почему аналитики покупают на падении

Что появилось / что изменилось

Google Research представила алгоритм TurboQuant для инференса больших языковых моделей. Он работает только с KV‑кешем — «рабочей памятью» механизма внимания, которая живёт в виде тензоров Key и Value в видеопамяти GPU.

Конкретные цифры:

  • сжатие KV‑кеша в 6 раз относительно стандартных 16‑битных представлений
  • эффективная квантизация до 3 бит на значение вместо 16
  • ускорение вычислений attention до 8× на NVIDIA H100
  • заявленная нулевая потеря качества на бенчмарках
  • алгоритм не трогает веса модели и данные обучения
  • не требует дообучения модели
  • статья принята на ICLR 2026

Рынок отреагировал нервно. За несколько дней:

  • Micron (MU) — с $471 до $345, около –25% за неделю
  • SK Hynix — –6,2% за день
  • Samsung — –4,7%, четыре дня подряд снижения
  • Kioxia — около –6% в Токио
  • Western Digital и SanDisk — –7%+
  • индексы: KOSPI –3,2%, NASDAQ –2,4%

При этом главный фокус TurboQuant — снижение объёма и стоимости памяти для инференса, а не удар по рынку HBM, которая зарабатывает на обучении.

Как это работает

TurboQuant сжимает только KV‑кеш, который растёт вместе с длиной контекста. При длинных диалогах именно он забивает VRAM и ограничивает доступный контекст.

Алгоритм разбит на два ключевых шага:

  1. PolarQuant

    • сначала выполняет случайное вращение векторного пространства признаков
    • затем переводит векторы из декартовых координат в полярные
    • это позволяет более компактно кодировать амплитуду и фазу и экономить 1–2 бита на число
  2. QJL (Quantized Johnson–Lindenstrauss)

    • применяет квантизированное JL‑встраивание для уменьшения размерности
    • корректирует ошибки квантизации так, чтобы свести остаточную ошибку к одному биту
    • за счёт этого attention scores не получают систематического смещения, а качество модели остаётся на уровне исходной 16‑битной версии

Главное: KV‑кеш ужимается до 3 бит на значение, а математические гарантии QJL удерживают качество. Модели не нужно дообучать — TurboQuant встраивают как слой на этапе инференса.

Исследование пока живёт в формате научной работы. Google не выложила официальный код, но уже появились сторонние реализации на PyTorch+Triton, MLX и C/CUDA для llama.cpp.

Что это значит для вас

Если вы разворачиваете LLM‑сервисы

TurboQuant полезен там, где:

  • вы держите длинный контекст (поднятие лимитов до сотен тысяч токенов)
  • инференс идёт на дорогих GPU с ограниченной VRAM
  • счёт идёт на доллары за тысячу запросов, и память — основной драйвер стоимости

Что вы можете выиграть:

  • в 6 раз меньше памяти под KV‑кеш — на одной H100 можно обслуживать больше одновременных сессий
  • до 8× ускорения attention — особенно заметно на длинных промптах и сложных цепочках рассуждений
  • потенциальное снижение стоимости инференса до долей от текущей цены

Где есть ограничения:

  • TurboQuant не ускоряет обучение. Для тренировки по‑прежнему нужна HBM высокой ёмкости и пропускной способности
  • веса модели остаются прежними. Если VRAM упирается в сами параметры, TurboQuant не спасёт
  • это всё ещё исследование, а не официальный продукт Google. В продакшен стоит тащить с осторожностью: тщательно валидировать качество на своих задачах и датасетах

Если вы работаете из России, доступ к исходникам и сторонним реализациям зависит от GitHub, PyPI и других площадок. В ряде случаев понадобится VPN, как и для большинства современных AI‑инструментов.

Если вы корпоративный заказчик ИИ

Для вас главный вывод другой. Аналитик Morgan Stanley Шон Ким уже сформулировал суть: если TurboQuant сокращает операционные расходы на ИИ до одной шестой, в игру зайдут компании, которые раньше тормозили из‑за цены.

Перевод на практический язык:

  • станет дешевле держать внутренние ассистенты, поиск по документам, автоматизацию поддержки
  • можно задуматься о более агрессивных пилотах с LLM: юридические шаблоны, аналитика, персонализированные рекомендации

Одна важная деталь: эффект похож на парадокс Джевонса. Когда ресурс (вычисления) становится дешевле, им начинают пользоваться чаще. Для вас это плюс, для чипмейкеров — в итоге тоже, потому что спрос растёт.

Если вы инвестируете в полупроводники

Рынок сначала испугался, что TurboQuant «сломает» спрос на память. Но алгоритм сжимает только KV‑кеш при инференсе и не бьёт по HBM‑памяти, которая нужна для обучения.

Аналитики Morgan Stanley, JPMorgan, Citigroup и Goldman Sachs сходятся в одном: распродажа слишком резкая и даёт точку входа. Аргументы:

  • TurboQuant не влияет на обучение, а именно там концентрируется прибыль Micron, Samsung и SK Hynix
  • январская история с DeepSeek уже показала: новости про «удешевление ИИ» сначала давят котировки, затем спрос на железо только растёт
  • акции памяти до падения уже принесли трёхзначную доходность: Micron около +300%, Samsung около +200%, Kioxia около +700% за год — часть инвесторов просто зафиксировала прибыль

Корейский аналитик Чэ Мин‑сок из Korea Investment & Securities связывает распродажу с банальной ошибкой интерпретации: инвесторы перепутали роль ёмкости памяти и пропускной способности. TurboQuant уменьшает одно, но не отменяет потребность в другом.

Место на рынке

TurboQuant решает узкий, но критичный кусок задачи: он оптимизирует KV‑кеш при инференсе. Это не замена GPT‑5, Claude 4 или других моделей, а «надстройка» поверх существующих архитектур.

По сравнению с классической квантизацией вроде GPTQ или AWQ различия прямые:

  • GPTQ/AWQ ужимают веса модели и почти всегда дают небольшую потерю качества
  • TurboQuant сжимает временные вычисления (KV‑кеш) и даёт математически обоснованное нулевое смещение attention scores
  • подходы складываются друг с другом: можно квантизировать веса GPTQ и параллельно сжать KV‑кеш TurboQuant

На уровне рынка памяти логика такая:

  • спрос на HBM для обучения больших моделей TurboQuant не снижает
  • спрос на память для инференса может перераспределиться: меньше чипов на один сервер, но больше серверов под растущий объём запросов

Для разработчиков TurboQuant — ещё один инженерный рычаг, похожий по эффекту на переход на FlashAttention или Llama‑квантизацию: локально уменьшает стоимость, глобально толкает индустрию к ещё большему потреблению ИИ.

Главный практический вывод: если вы строите свои LLM‑сервисы, TurboQuant стоит держать в шорт-листе технологий для продвинутой оптимизации. Если же вы переживаете за «смерть рынка памяти», текущие данные и позиция крупных аналитических домов говорят об обратном.


Читайте также

Google TurboQuant напугал рынок памяти: что он реально меняет для ИИ и почему аналитики покупают на падении — VogueTech | VogueTech