FP8

Новости о FP8-квантизации: ускорение инференса LLM, снижение потребления памяти и GPU.

3 материала