Google TurboQuant напугал рынок памяти: что он реально меняет для ИИ и почему аналитики покупают на падении — VogueTech

Что появилось / что изменилось

Google Research представила алгоритм TurboQuant для инференса больших языковых моделей. Он работает только с KV‑кешем — «рабочей памятью» механизма внимания, которая живёт в виде тензоров Key и Value в видеопамяти GPU.

Конкретные цифры:

сжатие KV‑кеша в 6 раз относительно стандартных 16‑битных представлений
эффективная квантизация до 3 бит на значение вместо 16
ускорение вычислений attention до 8× на NVIDIA H100
заявленная нулевая потеря качества на бенчмарках
алгоритм не трогает веса модели и данные обучения
не требует дообучения модели
статья принята на ICLR 2026

Рынок отреагировал нервно. За несколько дней:

Micron (MU) — с $471 до $345, около –25% за неделю
SK Hynix — –6,2% за день
Samsung — –4,7%, четыре дня подряд снижения
Kioxia — около –6% в Токио
Western Digital и SanDisk — –7%+
индексы: KOSPI –3,2%, NASDAQ –2,4%

При этом главный фокус TurboQuant — снижение объёма и стоимости памяти для инференса, а не удар по рынку HBM, которая зарабатывает на обучении.

Как это работает

TurboQuant сжимает только KV‑кеш, который растёт вместе с длиной контекста. При длинных диалогах именно он забивает VRAM и ограничивает доступный контекст.

Алгоритм разбит на два ключевых шага:

PolarQuant
- сначала выполняет случайное вращение векторного пространства признаков
- затем переводит векторы из декартовых координат в полярные
- это позволяет более компактно кодировать амплитуду и фазу и экономить 1–2 бита на число
QJL (Quantized Johnson–Lindenstrauss)
- применяет квантизированное JL‑встраивание для уменьшения размерности
- корректирует ошибки квантизации так, чтобы свести остаточную ошибку к одному биту
- за счёт этого attention scores не получают систематического смещения, а качество модели остаётся на уровне исходной 16‑битной версии

Главное: KV‑кеш ужимается до 3 бит на значение, а математические гарантии QJL удерживают качество. Модели не нужно дообучать — TurboQuant встраивают как слой на этапе инференса.

Исследование пока живёт в формате научной работы. Google не выложила официальный код, но уже появились сторонние реализации на PyTorch+Triton, MLX и C/CUDA для llama.cpp.

Что это значит для вас

Если вы разворачиваете LLM‑сервисы

TurboQuant полезен там, где:

вы держите длинный контекст (поднятие лимитов до сотен тысяч токенов)
инференс идёт на дорогих GPU с ограниченной VRAM
счёт идёт на доллары за тысячу запросов, и память — основной драйвер стоимости

Что вы можете выиграть:

в 6 раз меньше памяти под KV‑кеш — на одной H100 можно обслуживать больше одновременных сессий
до 8× ускорения attention — особенно заметно на длинных промптах и сложных цепочках рассуждений
потенциальное снижение стоимости инференса до долей от текущей цены

Где есть ограничения:

TurboQuant не ускоряет обучение. Для тренировки по‑прежнему нужна HBM высокой ёмкости и пропускной способности
веса модели остаются прежними. Если VRAM упирается в сами параметры, TurboQuant не спасёт
это всё ещё исследование, а не официальный продукт Google. В продакшен стоит тащить с осторожностью: тщательно валидировать качество на своих задачах и датасетах

Если вы работаете из России, доступ к исходникам и сторонним реализациям зависит от GitHub, PyPI и других площадок. В ряде случаев понадобится VPN, как и для большинства современных AI‑инструментов.

Если вы корпоративный заказчик ИИ

Для вас главный вывод другой. Аналитик Morgan Stanley Шон Ким уже сформулировал суть: если TurboQuant сокращает операционные расходы на ИИ до одной шестой, в игру зайдут компании, которые раньше тормозили из‑за цены.

Перевод на практический язык:

станет дешевле держать внутренние ассистенты, поиск по документам, автоматизацию поддержки
можно задуматься о более агрессивных пилотах с LLM: юридические шаблоны, аналитика, персонализированные рекомендации

Одна важная деталь: эффект похож на парадокс Джевонса. Когда ресурс (вычисления) становится дешевле, им начинают пользоваться чаще. Для вас это плюс, для чипмейкеров — в итоге тоже, потому что спрос растёт.

Если вы инвестируете в полупроводники

Рынок сначала испугался, что TurboQuant «сломает» спрос на память. Но алгоритм сжимает только KV‑кеш при инференсе и не бьёт по HBM‑памяти, которая нужна для обучения.

Аналитики Morgan Stanley, JPMorgan, Citigroup и Goldman Sachs сходятся в одном: распродажа слишком резкая и даёт точку входа. Аргументы:

TurboQuant не влияет на обучение, а именно там концентрируется прибыль Micron, Samsung и SK Hynix
январская история с DeepSeek уже показала: новости про «удешевление ИИ» сначала давят котировки, затем спрос на железо только растёт
акции памяти до падения уже принесли трёхзначную доходность: Micron около +300%, Samsung около +200%, Kioxia около +700% за год — часть инвесторов просто зафиксировала прибыль

Корейский аналитик Чэ Мин‑сок из Korea Investment & Securities связывает распродажу с банальной ошибкой интерпретации: инвесторы перепутали роль ёмкости памяти и пропускной способности. TurboQuant уменьшает одно, но не отменяет потребность в другом.

Место на рынке

TurboQuant решает узкий, но критичный кусок задачи: он оптимизирует KV‑кеш при инференсе. Это не замена GPT‑5, Claude 4 или других моделей, а «надстройка» поверх существующих архитектур.

По сравнению с классической квантизацией вроде GPTQ или AWQ различия прямые:

GPTQ/AWQ ужимают веса модели и почти всегда дают небольшую потерю качества
TurboQuant сжимает временные вычисления (KV‑кеш) и даёт математически обоснованное нулевое смещение attention scores
подходы складываются друг с другом: можно квантизировать веса GPTQ и параллельно сжать KV‑кеш TurboQuant

На уровне рынка памяти логика такая:

спрос на HBM для обучения больших моделей TurboQuant не снижает
спрос на память для инференса может перераспределиться: меньше чипов на один сервер, но больше серверов под растущий объём запросов

Для разработчиков TurboQuant — ещё один инженерный рычаг, похожий по эффекту на переход на FlashAttention или Llama‑квантизацию: локально уменьшает стоимость, глобально толкает индустрию к ещё большему потреблению ИИ.

Главный практический вывод: если вы строите свои LLM‑сервисы, TurboQuant стоит держать в шорт-листе технологий для продвинутой оптимизации. Если же вы переживаете за «смерть рынка памяти», текущие данные и позиция крупных аналитических домов говорят об обратном.