Дата публикации
ai_products

Pixtral 12B: как устроена устаревшая, но показательная мультимодальная модель Mistral

Что появилось / что изменилось

Pixtral 12B уже официально снята с поддержки. Mistral прямо говорит: модель устарела и её место заняли более новые мультимодальные системы. Но Pixtral всё ещё важна как ориентир того, что сейчас считается «минимальным стандартом» для открытых мультимодальных моделей.

Ключевые факты:

  • Архитектура: 12‑миллиардный мультимодальный декодер на базе Mistral Nemo + новый vision‑энкодер на 400 млн параметров.
  • Контекст: до 128k токенов, в который можно положить сколько угодно картинок.
  • Формат данных: нативная мультимодальность — модель обучали на перемешанных тексте и изображениях.
  • Картинки: поддержка произвольного разрешения и соотношения сторон, без жёсткого ресайза в один фиксированный размер.
  • Бенчмарки: 52,5% на MMMU — это сложный мультимодальный тест на рассуждение, где Pixtral обгоняет ряд более крупных моделей.
  • Лицензия: Apache 2.0 — можно использовать в продуктах и модифицировать.
  • Доступ: Pixtral можно запустить через La Plateforme и Le Chat от Mistral (зависит от вашего региона и наличия VPN).

Mistral позиционировала Pixtral как «drop‑in» замену для Mistral Nemo 12B: вы меняете модель, а код вокруг почти не трогаете.

Как это работает

Под капотом два ключевых блока:

  1. Vision‑энкодер на 400M параметров

    • Обучен с нуля, а не взят из готовых компьютерных vision‑сетей.
    • Принимает изображение в исходном разрешении и соотношении сторон.
    • Делит картинку на патчи 16×16 пикселей и превращает каждый патч в «токен».
  2. Мультимодальный декодер на 12B параметров

    • Это продолжение семейства Mistral Nemo.
    • На вход получает смесь текстовых токенов и токенов‑патчей от энкодера.
    • Обучен на задаче предсказания следующего текстового токена по последовательности «текст + изображения».

Чтобы модель понимала форму и структуру картинок, Mistral добавила специальные токены:

  • [IMG BREAK] — разделяет строки патчей, помогает отличать, например, «узкую и высокую» картинку от «широкой и низкой» при одинаковом числе токенов.
  • [IMG END] — показывает конец изображения.

Важный момент: Pixtral не ломает текстовые навыки ради картинок. Mistral подчёркивает, что модель держит уровень SOTA на текстовых бенчмарках и параллельно показывает сильные результаты в:

  • документ‑QA,
  • понимании графиков и диаграмм,
  • мультимодальном рассуждении,
  • следовании инструкциям (и по тексту, и по картинке).

Что это значит для вас

Pixtral 12B — разумный выбор, если вам нужна открытая мультимодальная модель среднего размера, и вы готовы мириться с тем, что она уже не развивается.

Где Pixtral уместна:

  • Аналитика документов и PDF: вы можете скормить отчёт, скриншоты таблиц, диаграммы и получить осмысленный разбор.
  • Чтение скриншотов интерфейсов: описать, что происходит на экране, найти ошибки в макете, подсветить проблемные элементы.
  • Работа с графиками и схемами: Pixtral неплохо разбирается в диаграммах, инженерных рисунках, научных фигурах.
  • Инструкции по картинке: «объясни, что происходит на фото», «составь текст по инфографике», «ответь на вопросы по презентации».
  • Чистый текст: код, математика, сложные промпты — Pixtral сохраняет уровень Mistral Nemo 12B и не проседает относительно текстовых моделей того же класса.

Где лучше поискать альтернативу:

  • Творческие задачи с высоким требованием к «чувству стиля»: описание модных съёмок, визуальный сторителлинг — здесь GPT‑4o и Claude 3.5 Sonnet всё ещё впереди.
  • Максимальное качество мультимодала без компромиссов: новые модели Mistral и закрытые гиганты дадут более стабильный результат.
  • Долгосрочные проекты: Pixtral уже снята с поддержки, баги и уязвимости никто чинить не будет.

По доступности: La Plateforme и Le Chat могут быть недоступны из России без VPN и обхода ограничений. Для продакшена лучше сразу закладывать либо self‑host, либо прокси‑доступ.

Место на рынке

Mistral честно сравнивает Pixtral с открытыми и закрытыми конкурентами через единый evaluation‑харнесс и одинаковые промпты. На этой базе получается такая картина.

По мультимодальному рассуждению и бенчмаркам:

  • Pixtral существенно обгоняет все открытые модели сопоставимого масштаба.
  • В ряде тестов Pixtral превосходит даже Claude 3 Haiku, который ближе к закрытому «младшему» классу.
  • На некоторых мультимодальных бенчмарках Pixtral догоняет или обходит гораздо более крупную LLaVa OneVision 72B.

По следованию инструкциям (IF‑Eval, MT‑Bench и их мультимодальные версии MM‑IF‑Eval, MM‑MT‑Bench):

  • Pixtral сильно опережает Qwen2‑VL 7B, LLaVa‑OneVision 7B и Phi‑3.5 Vision.
  • Отрыв — около 20% относительного улучшения в текстовых IF‑Eval и MT‑Bench по сравнению с ближайшей открытой моделью.
  • На мультимодальных версиях этих бенчмарков Pixtral также впереди.

По сравнению с флагманами вроде GPT‑4o и Claude 3.5 Sonnet Pixtral всё ещё скромнее. Mistral использует их как эталон: промпты подбирали так, чтобы воспроизвести их заявленные результаты, и уже потом по тем же настройкам гоняли Pixtral.

Итог: Pixtral 12B сейчас — не «самая свежая» модель Mistral, а скорее крепкий ориентир для тех, кто хочет:

  • понять, на что способна открытая мультимодальная модель среднего размера;
  • получить сильный баланс между текстом и картинками;
  • не платить за токены GPT‑4o или Claude 3.5 Sonnet, но и не скатываться в слабые open‑source альтернативы.

Если вам нужна живая поддержка и развитие, стоит смотреть на новые модели Mistral и закрытые флагманы. Если нужен самодостаточный, юридически комфортный мультимодал под Apache 2.0 — Pixtral всё ещё выглядит рабочим вариантом, при том что официально она уже в статусе «устарела».

Pixtral 12B: как устроена устаревшая, но показательная мультимодальная модель Mistral — VogueTech | VogueTech