Reka Edge: 7B‑мультимоделка с видео и детекцией объектов, которая запускается через vLLM — VogueTech

Что появилось / что изменилось

Reka выкатили Reka Edge — компактную 7B‑мультимодальную модель, которую можно поднять локально через vLLM. Она понимает текст, картинки и видео, умеет детектировать объекты и работать с инструментами (function calling).

Ключевые факты:

Параметры: 7B
Тип: мультимодальная (текст + изображение + видео)
Вход по картинкам: до 6 изображений в одном запросе
Вход по видео: до 3 роликов в одном запросе
Обработка видео: по умолчанию 6 кадров на видео, можно поднять для лучшего понимания динамики
Контекст: до 16 384 токенов
Формат API: OpenAI‑совместимый /v1/chat/completions
Скорость: на RTX 3090 — около 40–50 токенов в секунду
Вес модели: около 14 ГБ
Видеопамять: при 4‑битной квантизации хватает потребительских GPU вроде RTX 4090 с 24 ГБ VRAM
Режим по умолчанию: 4‑битная quantization через bitsandbytes, доступен полноточный режим (bfloat16) примерно с 14 ГБ VRAM на модель

Для доступа к весам Reka Edge есть готовый репозиторий на Hugging Face: RekaAI/reka-edge-2603. Плагин автоматически регистрирует конфиги в vLLM, так что модель можно запускать без ручного шаманства с архитектурами и токенизатором.

Как это работает

Reka Edge работает поверх стека vLLM и ставится как отдельный плагин.

Под капотом:

Архитектура текста: Yasa2ForConditionalGeneration — это основная языковая часть
Вижн‑энкодер: ConvNextV2 для обработки изображений и кадров из видео
Токенизатор: кастомный tokenizer «Yasa», который плагин регистрирует в vLLM
Тип данных по умолчанию: bfloat16, при квантизации — 4‑битный bitsandbytes
Tensor parallel: переменная TP_SIZE, по умолчанию 1, можно масштабировать на несколько GPU

Разработчик ставит плагин (uv sync, pip install -e . или poetry install), и vLLM сам подхватывает его через entry point vllm.general_plugins. Дальше всё крутится вокруг одного скрипта serve.sh.

serve.sh задаёт рабочие настройки через переменные окружения:

HOST и PORT — по умолчанию 0.0.0.0:8000
SERVED_MODEL_NAME — имя модели в API (reka-edge-2603), его видят OpenAI‑совместимые клиенты
GPU_MEM — доля видеопамяти, по умолчанию 0.95
MAX_LEN — максимум контекста, 16384 токена
MAX_BATCH_TOKENS — до 20 000 токенов в батче
MAX_IMAGES и MAX_VIDEOS — лимиты на медиаконтент в одном запросе
VIDEO_NUM_FRAMES и VIDEO_SAMPLING — как резать видео на кадры

Если нужен полный контроль, можно обойтись без serve.sh и вызвать vLLM напрямую:

vllm serve <model-path> \
  --tokenizer-mode yasa \
  --chat-template-content-format openai \
  --trust-remote-code

Снаружи всё выглядит как обычное OpenAI‑подобное API: отправляете запрос на /v1/chat/completions с model: "reka-edge-2603" и массивом messages.

Что это значит для вас

Reka Edge логично смотреть тем, кому нужен локальный мультимодальный стек без привязки к внешнему облаку.

Где это полезно:

Аналитика изображений и видео. Можно гнать через API повседневные картинки, UI‑скриншоты, фрагменты интерфейсов, короткие ролики. Подойдёт для прототипов ассистентов, которые «видят» экран или камеру.
Object detection “по‑простому”. Модель умеет находить заданные объекты на картинке через текстовый запрос вроде "Detect: eye, ear". Это не замена специализированным детекторам, но удобно, когда хочется быструю проверку без отдельного пайплайна.
Локальные ассистенты. Если вы собираете свой mini‑ChatGPT c поддержкой картинок и видео и не хотите тащить 70B‑монстров, 7B‑модель — компромисс между ресурсами и качеством.
Инструменты и function calling. Плагин рассчитан на работу с инструментами: можно строить агента, который по картинке, тексту и видео вызывает ваши функции, обращается к API или базе данных.

Где стоит подумать дважды:

Если у вас нет мощной NVIDIA‑карты с минимум 24 ГБ VRAM, придётся ужимать настройки или искать облачный GPU.
На macOS модель официально не поддерживается для сервинга — нужен Linux с CUDA.
Для задач уровня продакшн‑поиска по медицинским снимкам или промышленному видео этот стек может быть стартовой точкой, но вряд ли заменит тяжёлые специализированные решения.

Доступ к весам идёт через Hugging Face. Если у вас в регионе блокируют платформу или связанные сервисы, может понадобиться VPN и ручная настройка зеркал.

Место на рынке

Reka Edge целится в нишу «компактная мультимодальная модель, которую реально крутить локально». При 7B параметров и 4‑битной квантизации она помещается в 24 ГБ VRAM и даёт скорость 40–50 токенов в секунду на RTX 3090. Для локальной мультимодалки с видео и детекцией объектов это приятный баланс между ресурсами и возможностями.

Формат OpenAI‑совместимого API упрощает жизнь: если у вас уже есть код под /v1/chat/completions, его легко переключить на Reka Edge — достаточно поменять URL и имя модели. За счёт vLLM модель хорошо вписывается в существующие пайплайны, где уже используют этот сервер для других LLM.

Конкретных публичных сравнений с GPT‑4o, Claude 3 или другими мультимодальными моделями авторы не приводят. Ориентир — «frontier‑class» восприятие изображений и видео при заметно меньшем размере и возможности держать всё у себя.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также