Pixtral 12B: как устроена устаревшая, но показательная мультимодальная модель Mistral — VogueTech

Что появилось / что изменилось

Pixtral 12B уже официально снята с поддержки. Mistral прямо говорит: модель устарела и её место заняли более новые мультимодальные системы. Но Pixtral всё ещё важна как ориентир того, что сейчас считается «минимальным стандартом» для открытых мультимодальных моделей.

Ключевые факты:

Архитектура: 12‑миллиардный мультимодальный декодер на базе Mistral Nemo + новый vision‑энкодер на 400 млн параметров.
Контекст: до 128k токенов, в который можно положить сколько угодно картинок.
Формат данных: нативная мультимодальность — модель обучали на перемешанных тексте и изображениях.
Картинки: поддержка произвольного разрешения и соотношения сторон, без жёсткого ресайза в один фиксированный размер.
Бенчмарки: 52,5% на MMMU — это сложный мультимодальный тест на рассуждение, где Pixtral обгоняет ряд более крупных моделей.
Лицензия: Apache 2.0 — можно использовать в продуктах и модифицировать.
Доступ: Pixtral можно запустить через La Plateforme и Le Chat от Mistral (зависит от вашего региона и наличия VPN).

Mistral позиционировала Pixtral как «drop‑in» замену для Mistral Nemo 12B: вы меняете модель, а код вокруг почти не трогаете.

Как это работает

Под капотом два ключевых блока:

Vision‑энкодер на 400M параметров
- Обучен с нуля, а не взят из готовых компьютерных vision‑сетей.
- Принимает изображение в исходном разрешении и соотношении сторон.
- Делит картинку на патчи 16×16 пикселей и превращает каждый патч в «токен».
Мультимодальный декодер на 12B параметров
- Это продолжение семейства Mistral Nemo.
- На вход получает смесь текстовых токенов и токенов‑патчей от энкодера.
- Обучен на задаче предсказания следующего текстового токена по последовательности «текст + изображения».

Чтобы модель понимала форму и структуру картинок, Mistral добавила специальные токены:

[IMG BREAK] — разделяет строки патчей, помогает отличать, например, «узкую и высокую» картинку от «широкой и низкой» при одинаковом числе токенов.
[IMG END] — показывает конец изображения.

Важный момент: Pixtral не ломает текстовые навыки ради картинок. Mistral подчёркивает, что модель держит уровень SOTA на текстовых бенчмарках и параллельно показывает сильные результаты в:

документ‑QA,
понимании графиков и диаграмм,
мультимодальном рассуждении,
следовании инструкциям (и по тексту, и по картинке).

Что это значит для вас

Pixtral 12B — разумный выбор, если вам нужна открытая мультимодальная модель среднего размера, и вы готовы мириться с тем, что она уже не развивается.

Где Pixtral уместна:

Аналитика документов и PDF: вы можете скормить отчёт, скриншоты таблиц, диаграммы и получить осмысленный разбор.
Чтение скриншотов интерфейсов: описать, что происходит на экране, найти ошибки в макете, подсветить проблемные элементы.
Работа с графиками и схемами: Pixtral неплохо разбирается в диаграммах, инженерных рисунках, научных фигурах.
Инструкции по картинке: «объясни, что происходит на фото», «составь текст по инфографике», «ответь на вопросы по презентации».
Чистый текст: код, математика, сложные промпты — Pixtral сохраняет уровень Mistral Nemo 12B и не проседает относительно текстовых моделей того же класса.

Где лучше поискать альтернативу:

Творческие задачи с высоким требованием к «чувству стиля»: описание модных съёмок, визуальный сторителлинг — здесь GPT‑4o и Claude 3.5 Sonnet всё ещё впереди.
Максимальное качество мультимодала без компромиссов: новые модели Mistral и закрытые гиганты дадут более стабильный результат.
Долгосрочные проекты: Pixtral уже снята с поддержки, баги и уязвимости никто чинить не будет.

По доступности: La Plateforme и Le Chat могут быть недоступны из России без VPN и обхода ограничений. Для продакшена лучше сразу закладывать либо self‑host, либо прокси‑доступ.

Место на рынке

Mistral честно сравнивает Pixtral с открытыми и закрытыми конкурентами через единый evaluation‑харнесс и одинаковые промпты. На этой базе получается такая картина.

По мультимодальному рассуждению и бенчмаркам:

Pixtral существенно обгоняет все открытые модели сопоставимого масштаба.
В ряде тестов Pixtral превосходит даже Claude 3 Haiku, который ближе к закрытому «младшему» классу.
На некоторых мультимодальных бенчмарках Pixtral догоняет или обходит гораздо более крупную LLaVa OneVision 72B.

По следованию инструкциям (IF‑Eval, MT‑Bench и их мультимодальные версии MM‑IF‑Eval, MM‑MT‑Bench):

Pixtral сильно опережает Qwen2‑VL 7B, LLaVa‑OneVision 7B и Phi‑3.5 Vision.
Отрыв — около 20% относительного улучшения в текстовых IF‑Eval и MT‑Bench по сравнению с ближайшей открытой моделью.
На мультимодальных версиях этих бенчмарков Pixtral также впереди.

По сравнению с флагманами вроде GPT‑4o и Claude 3.5 Sonnet Pixtral всё ещё скромнее. Mistral использует их как эталон: промпты подбирали так, чтобы воспроизвести их заявленные результаты, и уже потом по тем же настройкам гоняли Pixtral.

Итог: Pixtral 12B сейчас — не «самая свежая» модель Mistral, а скорее крепкий ориентир для тех, кто хочет:

понять, на что способна открытая мультимодальная модель среднего размера;
получить сильный баланс между текстом и картинками;
не платить за токены GPT‑4o или Claude 3.5 Sonnet, но и не скатываться в слабые open‑source альтернативы.

Если вам нужна живая поддержка и развитие, стоит смотреть на новые модели Mistral и закрытые флагманы. Если нужен самодостаточный, юридически комфортный мультимодал под Apache 2.0 — Pixtral всё ещё выглядит рабочим вариантом, при том что официально она уже в статусе «устарела».