- Дата публикации
Что нового AWS показала, как выжать больше производительности из своих чипов Trainium2 для генеративных моделей с длинными ответами за счёт speculative decoding в связке с vLLM и Kubernetes. Ключевые ...
Новости Llama: Llama 4, Scout, Maverick — релизы, тонкая настройка и применение опенсорс-моделей.
11 материалов