- Дата публикации
Google TurboQuant напугал рынок памяти: что он реально меняет для ИИ и почему аналитики покупают на падении
Что появилось / что изменилось
Google Research представила алгоритм TurboQuant для инференса больших языковых моделей. Он работает только с KV‑кешем — «рабочей памятью» механизма внимания, которая живёт в виде тензоров Key и Value в видеопамяти GPU.
Конкретные цифры:
- сжатие KV‑кеша в 6 раз относительно стандартных 16‑битных представлений
- эффективная квантизация до 3 бит на значение вместо 16
- ускорение вычислений attention до 8× на NVIDIA H100
- заявленная нулевая потеря качества на бенчмарках
- алгоритм не трогает веса модели и данные обучения
- не требует дообучения модели
- статья принята на ICLR 2026
Рынок отреагировал нервно. За несколько дней:
- Micron (MU) — с $471 до $345, около –25% за неделю
- SK Hynix — –6,2% за день
- Samsung — –4,7%, четыре дня подряд снижения
- Kioxia — около –6% в Токио
- Western Digital и SanDisk — –7%+
- индексы: KOSPI –3,2%, NASDAQ –2,4%
При этом главный фокус TurboQuant — снижение объёма и стоимости памяти для инференса, а не удар по рынку HBM, которая зарабатывает на обучении.
Как это работает
TurboQuant сжимает только KV‑кеш, который растёт вместе с длиной контекста. При длинных диалогах именно он забивает VRAM и ограничивает доступный контекст.
Алгоритм разбит на два ключевых шага:
-
PolarQuant
- сначала выполняет случайное вращение векторного пространства признаков
- затем переводит векторы из декартовых координат в полярные
- это позволяет более компактно кодировать амплитуду и фазу и экономить 1–2 бита на число
-
QJL (Quantized Johnson–Lindenstrauss)
- применяет квантизированное JL‑встраивание для уменьшения размерности
- корректирует ошибки квантизации так, чтобы свести остаточную ошибку к одному биту
- за счёт этого attention scores не получают систематического смещения, а качество модели остаётся на уровне исходной 16‑битной версии
Главное: KV‑кеш ужимается до 3 бит на значение, а математические гарантии QJL удерживают качество. Модели не нужно дообучать — TurboQuant встраивают как слой на этапе инференса.
Исследование пока живёт в формате научной работы. Google не выложила официальный код, но уже появились сторонние реализации на PyTorch+Triton, MLX и C/CUDA для llama.cpp.
Что это значит для вас
Если вы разворачиваете LLM‑сервисы
TurboQuant полезен там, где:
- вы держите длинный контекст (поднятие лимитов до сотен тысяч токенов)
- инференс идёт на дорогих GPU с ограниченной VRAM
- счёт идёт на доллары за тысячу запросов, и память — основной драйвер стоимости
Что вы можете выиграть:
- в 6 раз меньше памяти под KV‑кеш — на одной H100 можно обслуживать больше одновременных сессий
- до 8× ускорения attention — особенно заметно на длинных промптах и сложных цепочках рассуждений
- потенциальное снижение стоимости инференса до долей от текущей цены
Где есть ограничения:
- TurboQuant не ускоряет обучение. Для тренировки по‑прежнему нужна HBM высокой ёмкости и пропускной способности
- веса модели остаются прежними. Если VRAM упирается в сами параметры, TurboQuant не спасёт
- это всё ещё исследование, а не официальный продукт Google. В продакшен стоит тащить с осторожностью: тщательно валидировать качество на своих задачах и датасетах
Если вы работаете из России, доступ к исходникам и сторонним реализациям зависит от GitHub, PyPI и других площадок. В ряде случаев понадобится VPN, как и для большинства современных AI‑инструментов.
Если вы корпоративный заказчик ИИ
Для вас главный вывод другой. Аналитик Morgan Stanley Шон Ким уже сформулировал суть: если TurboQuant сокращает операционные расходы на ИИ до одной шестой, в игру зайдут компании, которые раньше тормозили из‑за цены.
Перевод на практический язык:
- станет дешевле держать внутренние ассистенты, поиск по документам, автоматизацию поддержки
- можно задуматься о более агрессивных пилотах с LLM: юридические шаблоны, аналитика, персонализированные рекомендации
Одна важная деталь: эффект похож на парадокс Джевонса. Когда ресурс (вычисления) становится дешевле, им начинают пользоваться чаще. Для вас это плюс, для чипмейкеров — в итоге тоже, потому что спрос растёт.
Если вы инвестируете в полупроводники
Рынок сначала испугался, что TurboQuant «сломает» спрос на память. Но алгоритм сжимает только KV‑кеш при инференсе и не бьёт по HBM‑памяти, которая нужна для обучения.
Аналитики Morgan Stanley, JPMorgan, Citigroup и Goldman Sachs сходятся в одном: распродажа слишком резкая и даёт точку входа. Аргументы:
- TurboQuant не влияет на обучение, а именно там концентрируется прибыль Micron, Samsung и SK Hynix
- январская история с DeepSeek уже показала: новости про «удешевление ИИ» сначала давят котировки, затем спрос на железо только растёт
- акции памяти до падения уже принесли трёхзначную доходность: Micron около +300%, Samsung около +200%, Kioxia около +700% за год — часть инвесторов просто зафиксировала прибыль
Корейский аналитик Чэ Мин‑сок из Korea Investment & Securities связывает распродажу с банальной ошибкой интерпретации: инвесторы перепутали роль ёмкости памяти и пропускной способности. TurboQuant уменьшает одно, но не отменяет потребность в другом.
Место на рынке
TurboQuant решает узкий, но критичный кусок задачи: он оптимизирует KV‑кеш при инференсе. Это не замена GPT‑5, Claude 4 или других моделей, а «надстройка» поверх существующих архитектур.
По сравнению с классической квантизацией вроде GPTQ или AWQ различия прямые:
- GPTQ/AWQ ужимают веса модели и почти всегда дают небольшую потерю качества
- TurboQuant сжимает временные вычисления (KV‑кеш) и даёт математически обоснованное нулевое смещение attention scores
- подходы складываются друг с другом: можно квантизировать веса GPTQ и параллельно сжать KV‑кеш TurboQuant
На уровне рынка памяти логика такая:
- спрос на HBM для обучения больших моделей TurboQuant не снижает
- спрос на память для инференса может перераспределиться: меньше чипов на один сервер, но больше серверов под растущий объём запросов
Для разработчиков TurboQuant — ещё один инженерный рычаг, похожий по эффекту на переход на FlashAttention или Llama‑квантизацию: локально уменьшает стоимость, глобально толкает индустрию к ещё большему потреблению ИИ.
Главный практический вывод: если вы строите свои LLM‑сервисы, TurboQuant стоит держать в шорт-листе технологий для продвинутой оптимизации. Если же вы переживаете за «смерть рынка памяти», текущие данные и позиция крупных аналитических домов говорят об обратном.