Дата публикации
ai_products

Reka Edge: 7B‑мультимоделка с видео и детекцией объектов, которая запускается через vLLM

Что появилось / что изменилось

Reka выкатили Reka Edge — компактную 7B‑мультимодальную модель, которую можно поднять локально через vLLM. Она понимает текст, картинки и видео, умеет детектировать объекты и работать с инструментами (function calling).

Ключевые факты:

  • Параметры: 7B
  • Тип: мультимодальная (текст + изображение + видео)
  • Вход по картинкам: до 6 изображений в одном запросе
  • Вход по видео: до 3 роликов в одном запросе
  • Обработка видео: по умолчанию 6 кадров на видео, можно поднять для лучшего понимания динамики
  • Контекст: до 16 384 токенов
  • Формат API: OpenAI‑совместимый /v1/chat/completions
  • Скорость: на RTX 3090 — около 40–50 токенов в секунду
  • Вес модели: около 14 ГБ
  • Видеопамять: при 4‑битной квантизации хватает потребительских GPU вроде RTX 4090 с 24 ГБ VRAM
  • Режим по умолчанию: 4‑битная quantization через bitsandbytes, доступен полноточный режим (bfloat16) примерно с 14 ГБ VRAM на модель

Для доступа к весам Reka Edge есть готовый репозиторий на Hugging Face: RekaAI/reka-edge-2603. Плагин автоматически регистрирует конфиги в vLLM, так что модель можно запускать без ручного шаманства с архитектурами и токенизатором.

Как это работает

Reka Edge работает поверх стека vLLM и ставится как отдельный плагин.

Под капотом:

  • Архитектура текста: Yasa2ForConditionalGeneration — это основная языковая часть
  • Вижн‑энкодер: ConvNextV2 для обработки изображений и кадров из видео
  • Токенизатор: кастомный tokenizer «Yasa», который плагин регистрирует в vLLM
  • Тип данных по умолчанию: bfloat16, при квантизации — 4‑битный bitsandbytes
  • Tensor parallel: переменная TP_SIZE, по умолчанию 1, можно масштабировать на несколько GPU

Разработчик ставит плагин (uv sync, pip install -e . или poetry install), и vLLM сам подхватывает его через entry point vllm.general_plugins. Дальше всё крутится вокруг одного скрипта serve.sh.

serve.sh задаёт рабочие настройки через переменные окружения:

  • HOST и PORT — по умолчанию 0.0.0.0:8000
  • SERVED_MODEL_NAME — имя модели в API (reka-edge-2603), его видят OpenAI‑совместимые клиенты
  • GPU_MEM — доля видеопамяти, по умолчанию 0.95
  • MAX_LEN — максимум контекста, 16384 токена
  • MAX_BATCH_TOKENS — до 20 000 токенов в батче
  • MAX_IMAGES и MAX_VIDEOS — лимиты на медиаконтент в одном запросе
  • VIDEO_NUM_FRAMES и VIDEO_SAMPLING — как резать видео на кадры

Если нужен полный контроль, можно обойтись без serve.sh и вызвать vLLM напрямую:

vllm serve <model-path> \
  --tokenizer-mode yasa \
  --chat-template-content-format openai \
  --trust-remote-code

Снаружи всё выглядит как обычное OpenAI‑подобное API: отправляете запрос на /v1/chat/completions с model: "reka-edge-2603" и массивом messages.

Что это значит для вас

Reka Edge логично смотреть тем, кому нужен локальный мультимодальный стек без привязки к внешнему облаку.

Где это полезно:

  • Аналитика изображений и видео. Можно гнать через API повседневные картинки, UI‑скриншоты, фрагменты интерфейсов, короткие ролики. Подойдёт для прототипов ассистентов, которые «видят» экран или камеру.
  • Object detection “по‑простому”. Модель умеет находить заданные объекты на картинке через текстовый запрос вроде "Detect: eye, ear". Это не замена специализированным детекторам, но удобно, когда хочется быструю проверку без отдельного пайплайна.
  • Локальные ассистенты. Если вы собираете свой mini‑ChatGPT c поддержкой картинок и видео и не хотите тащить 70B‑монстров, 7B‑модель — компромисс между ресурсами и качеством.
  • Инструменты и function calling. Плагин рассчитан на работу с инструментами: можно строить агента, который по картинке, тексту и видео вызывает ваши функции, обращается к API или базе данных.

Где стоит подумать дважды:

  • Если у вас нет мощной NVIDIA‑карты с минимум 24 ГБ VRAM, придётся ужимать настройки или искать облачный GPU.
  • На macOS модель официально не поддерживается для сервинга — нужен Linux с CUDA.
  • Для задач уровня продакшн‑поиска по медицинским снимкам или промышленному видео этот стек может быть стартовой точкой, но вряд ли заменит тяжёлые специализированные решения.

Доступ к весам идёт через Hugging Face. Если у вас в регионе блокируют платформу или связанные сервисы, может понадобиться VPN и ручная настройка зеркал.

Место на рынке

Reka Edge целится в нишу «компактная мультимодальная модель, которую реально крутить локально». При 7B параметров и 4‑битной квантизации она помещается в 24 ГБ VRAM и даёт скорость 40–50 токенов в секунду на RTX 3090. Для локальной мультимодалки с видео и детекцией объектов это приятный баланс между ресурсами и возможностями.

Формат OpenAI‑совместимого API упрощает жизнь: если у вас уже есть код под /v1/chat/completions, его легко переключить на Reka Edge — достаточно поменять URL и имя модели. За счёт vLLM модель хорошо вписывается в существующие пайплайны, где уже используют этот сервер для других LLM.

Конкретных публичных сравнений с GPT‑4o, Claude 3 или другими мультимодальными моделями авторы не приводят. Ориентир — «frontier‑class» восприятие изображений и видео при заметно меньшем размере и возможности держать всё у себя.


Читайте также