- Дата публикации
Reka Edge: 7B‑мультимоделка с видео и детекцией объектов, которая запускается через vLLM
Что появилось / что изменилось
Reka выкатили Reka Edge — компактную 7B‑мультимодальную модель, которую можно поднять локально через vLLM. Она понимает текст, картинки и видео, умеет детектировать объекты и работать с инструментами (function calling).
Ключевые факты:
- Параметры: 7B
- Тип: мультимодальная (текст + изображение + видео)
- Вход по картинкам: до 6 изображений в одном запросе
- Вход по видео: до 3 роликов в одном запросе
- Обработка видео: по умолчанию 6 кадров на видео, можно поднять для лучшего понимания динамики
- Контекст: до 16 384 токенов
- Формат API: OpenAI‑совместимый /v1/chat/completions
- Скорость: на RTX 3090 — около 40–50 токенов в секунду
- Вес модели: около 14 ГБ
- Видеопамять: при 4‑битной квантизации хватает потребительских GPU вроде RTX 4090 с 24 ГБ VRAM
- Режим по умолчанию: 4‑битная quantization через bitsandbytes, доступен полноточный режим (bfloat16) примерно с 14 ГБ VRAM на модель
Для доступа к весам Reka Edge есть готовый репозиторий на Hugging Face: RekaAI/reka-edge-2603. Плагин автоматически регистрирует конфиги в vLLM, так что модель можно запускать без ручного шаманства с архитектурами и токенизатором.
Как это работает
Reka Edge работает поверх стека vLLM и ставится как отдельный плагин.
Под капотом:
- Архитектура текста:
Yasa2ForConditionalGeneration— это основная языковая часть - Вижн‑энкодер:
ConvNextV2для обработки изображений и кадров из видео - Токенизатор: кастомный tokenizer «Yasa», который плагин регистрирует в vLLM
- Тип данных по умолчанию:
bfloat16, при квантизации — 4‑битный bitsandbytes - Tensor parallel: переменная
TP_SIZE, по умолчанию 1, можно масштабировать на несколько GPU
Разработчик ставит плагин (uv sync, pip install -e . или poetry install), и vLLM сам подхватывает его через entry point vllm.general_plugins. Дальше всё крутится вокруг одного скрипта serve.sh.
serve.sh задаёт рабочие настройки через переменные окружения:
HOSTиPORT— по умолчанию0.0.0.0:8000SERVED_MODEL_NAME— имя модели в API (reka-edge-2603), его видят OpenAI‑совместимые клиентыGPU_MEM— доля видеопамяти, по умолчанию 0.95MAX_LEN— максимум контекста, 16384 токенаMAX_BATCH_TOKENS— до 20 000 токенов в батчеMAX_IMAGESиMAX_VIDEOS— лимиты на медиаконтент в одном запросеVIDEO_NUM_FRAMESиVIDEO_SAMPLING— как резать видео на кадры
Если нужен полный контроль, можно обойтись без serve.sh и вызвать vLLM напрямую:
vllm serve <model-path> \
--tokenizer-mode yasa \
--chat-template-content-format openai \
--trust-remote-code
Снаружи всё выглядит как обычное OpenAI‑подобное API: отправляете запрос на /v1/chat/completions с model: "reka-edge-2603" и массивом messages.
Что это значит для вас
Reka Edge логично смотреть тем, кому нужен локальный мультимодальный стек без привязки к внешнему облаку.
Где это полезно:
- Аналитика изображений и видео. Можно гнать через API повседневные картинки, UI‑скриншоты, фрагменты интерфейсов, короткие ролики. Подойдёт для прототипов ассистентов, которые «видят» экран или камеру.
- Object detection “по‑простому”. Модель умеет находить заданные объекты на картинке через текстовый запрос вроде
"Detect: eye, ear". Это не замена специализированным детекторам, но удобно, когда хочется быструю проверку без отдельного пайплайна. - Локальные ассистенты. Если вы собираете свой mini‑ChatGPT c поддержкой картинок и видео и не хотите тащить 70B‑монстров, 7B‑модель — компромисс между ресурсами и качеством.
- Инструменты и function calling. Плагин рассчитан на работу с инструментами: можно строить агента, который по картинке, тексту и видео вызывает ваши функции, обращается к API или базе данных.
Где стоит подумать дважды:
- Если у вас нет мощной NVIDIA‑карты с минимум 24 ГБ VRAM, придётся ужимать настройки или искать облачный GPU.
- На macOS модель официально не поддерживается для сервинга — нужен Linux с CUDA.
- Для задач уровня продакшн‑поиска по медицинским снимкам или промышленному видео этот стек может быть стартовой точкой, но вряд ли заменит тяжёлые специализированные решения.
Доступ к весам идёт через Hugging Face. Если у вас в регионе блокируют платформу или связанные сервисы, может понадобиться VPN и ручная настройка зеркал.
Место на рынке
Reka Edge целится в нишу «компактная мультимодальная модель, которую реально крутить локально». При 7B параметров и 4‑битной квантизации она помещается в 24 ГБ VRAM и даёт скорость 40–50 токенов в секунду на RTX 3090. Для локальной мультимодалки с видео и детекцией объектов это приятный баланс между ресурсами и возможностями.
Формат OpenAI‑совместимого API упрощает жизнь: если у вас уже есть код под /v1/chat/completions, его легко переключить на Reka Edge — достаточно поменять URL и имя модели. За счёт vLLM модель хорошо вписывается в существующие пайплайны, где уже используют этот сервер для других LLM.
Конкретных публичных сравнений с GPT‑4o, Claude 3 или другими мультимодальными моделями авторы не приводят. Ориентир — «frontier‑class» восприятие изображений и видео при заметно меньшем размере и возможности держать всё у себя.