- Дата публикации
Pixtral 12B: как устроена устаревшая, но показательная мультимодальная модель Mistral
Что появилось / что изменилось
Pixtral 12B уже официально снята с поддержки. Mistral прямо говорит: модель устарела и её место заняли более новые мультимодальные системы. Но Pixtral всё ещё важна как ориентир того, что сейчас считается «минимальным стандартом» для открытых мультимодальных моделей.
Ключевые факты:
- Архитектура: 12‑миллиардный мультимодальный декодер на базе Mistral Nemo + новый vision‑энкодер на 400 млн параметров.
- Контекст: до 128k токенов, в который можно положить сколько угодно картинок.
- Формат данных: нативная мультимодальность — модель обучали на перемешанных тексте и изображениях.
- Картинки: поддержка произвольного разрешения и соотношения сторон, без жёсткого ресайза в один фиксированный размер.
- Бенчмарки: 52,5% на MMMU — это сложный мультимодальный тест на рассуждение, где Pixtral обгоняет ряд более крупных моделей.
- Лицензия: Apache 2.0 — можно использовать в продуктах и модифицировать.
- Доступ: Pixtral можно запустить через La Plateforme и Le Chat от Mistral (зависит от вашего региона и наличия VPN).
Mistral позиционировала Pixtral как «drop‑in» замену для Mistral Nemo 12B: вы меняете модель, а код вокруг почти не трогаете.
Как это работает
Под капотом два ключевых блока:
-
Vision‑энкодер на 400M параметров
- Обучен с нуля, а не взят из готовых компьютерных vision‑сетей.
- Принимает изображение в исходном разрешении и соотношении сторон.
- Делит картинку на патчи 16×16 пикселей и превращает каждый патч в «токен».
-
Мультимодальный декодер на 12B параметров
- Это продолжение семейства Mistral Nemo.
- На вход получает смесь текстовых токенов и токенов‑патчей от энкодера.
- Обучен на задаче предсказания следующего текстового токена по последовательности «текст + изображения».
Чтобы модель понимала форму и структуру картинок, Mistral добавила специальные токены:
- [IMG BREAK] — разделяет строки патчей, помогает отличать, например, «узкую и высокую» картинку от «широкой и низкой» при одинаковом числе токенов.
- [IMG END] — показывает конец изображения.
Важный момент: Pixtral не ломает текстовые навыки ради картинок. Mistral подчёркивает, что модель держит уровень SOTA на текстовых бенчмарках и параллельно показывает сильные результаты в:
- документ‑QA,
- понимании графиков и диаграмм,
- мультимодальном рассуждении,
- следовании инструкциям (и по тексту, и по картинке).
Что это значит для вас
Pixtral 12B — разумный выбор, если вам нужна открытая мультимодальная модель среднего размера, и вы готовы мириться с тем, что она уже не развивается.
Где Pixtral уместна:
- Аналитика документов и PDF: вы можете скормить отчёт, скриншоты таблиц, диаграммы и получить осмысленный разбор.
- Чтение скриншотов интерфейсов: описать, что происходит на экране, найти ошибки в макете, подсветить проблемные элементы.
- Работа с графиками и схемами: Pixtral неплохо разбирается в диаграммах, инженерных рисунках, научных фигурах.
- Инструкции по картинке: «объясни, что происходит на фото», «составь текст по инфографике», «ответь на вопросы по презентации».
- Чистый текст: код, математика, сложные промпты — Pixtral сохраняет уровень Mistral Nemo 12B и не проседает относительно текстовых моделей того же класса.
Где лучше поискать альтернативу:
- Творческие задачи с высоким требованием к «чувству стиля»: описание модных съёмок, визуальный сторителлинг — здесь GPT‑4o и Claude 3.5 Sonnet всё ещё впереди.
- Максимальное качество мультимодала без компромиссов: новые модели Mistral и закрытые гиганты дадут более стабильный результат.
- Долгосрочные проекты: Pixtral уже снята с поддержки, баги и уязвимости никто чинить не будет.
По доступности: La Plateforme и Le Chat могут быть недоступны из России без VPN и обхода ограничений. Для продакшена лучше сразу закладывать либо self‑host, либо прокси‑доступ.
Место на рынке
Mistral честно сравнивает Pixtral с открытыми и закрытыми конкурентами через единый evaluation‑харнесс и одинаковые промпты. На этой базе получается такая картина.
По мультимодальному рассуждению и бенчмаркам:
- Pixtral существенно обгоняет все открытые модели сопоставимого масштаба.
- В ряде тестов Pixtral превосходит даже Claude 3 Haiku, который ближе к закрытому «младшему» классу.
- На некоторых мультимодальных бенчмарках Pixtral догоняет или обходит гораздо более крупную LLaVa OneVision 72B.
По следованию инструкциям (IF‑Eval, MT‑Bench и их мультимодальные версии MM‑IF‑Eval, MM‑MT‑Bench):
- Pixtral сильно опережает Qwen2‑VL 7B, LLaVa‑OneVision 7B и Phi‑3.5 Vision.
- Отрыв — около 20% относительного улучшения в текстовых IF‑Eval и MT‑Bench по сравнению с ближайшей открытой моделью.
- На мультимодальных версиях этих бенчмарков Pixtral также впереди.
По сравнению с флагманами вроде GPT‑4o и Claude 3.5 Sonnet Pixtral всё ещё скромнее. Mistral использует их как эталон: промпты подбирали так, чтобы воспроизвести их заявленные результаты, и уже потом по тем же настройкам гоняли Pixtral.
Итог: Pixtral 12B сейчас — не «самая свежая» модель Mistral, а скорее крепкий ориентир для тех, кто хочет:
- понять, на что способна открытая мультимодальная модель среднего размера;
- получить сильный баланс между текстом и картинками;
- не платить за токены GPT‑4o или Claude 3.5 Sonnet, но и не скатываться в слабые open‑source альтернативы.
Если вам нужна живая поддержка и развитие, стоит смотреть на новые модели Mistral и закрытые флагманы. Если нужен самодостаточный, юридически комфортный мультимодал под Apache 2.0 — Pixtral всё ещё выглядит рабочим вариантом, при том что официально она уже в статусе «устарела».