- Дата публикации
Phi-4 Reasoning Vision 15B заработала в llama.cpp: локальная мультимодальная ИИ-сборка на вашем ПК
Что появилось / что изменилось
В llama.cpp добавили поддержку Phi-4-Reasoning-Vision-15B — компактной мультимодальной модели от Microsoft. Её уже конвертировали в формат GGUF, готовый для локального запуска: https://huggingface.co/dranger003/Phi-4-reasoning-vision-15B-GGUF
Ключевое изменение: теперь эту модель можно запускать через llama.cpp на обычных потребительских GPU и даже на мощных CPU, без облака Microsoft. Она умеет работать и с текстом, и с картинками, а главное — выполнять сложное рассуждение по обоим типам данных.
Размер — 15B параметров. Это заметно компактнее тяжёлых облачных мультимодальных моделей, но всё ещё достаточно крупно, чтобы требовать приличный объём видеопамяти или ОЗУ. Контекст в исходном описании не указан, но важная цифра есть по картинкам: до 3600 визуальных токенов на одно изображение. Это позволяет разбирать сложные интерфейсы, длинные документы и насыщенные детали сцены.
Модель уже прошла Supervised Fine-Tuning (SFT) на смеси датасетов для рассуждения и «обычных» визуальных задач. На её обучение Microsoft потратила 240 GPU NVIDIA B200 в течение 4 дней — это умеренные вычислительные затраты для такого класса систем.
Как это работает
Phi-4-Reasoning-Vision-15B строится вокруг языковой части Phi-4-Reasoning и визуального энкодера SigLIP-2. Архитектура — mid-fusion.
Что это значит на практике:
- SigLIP-2 превращает изображение в последовательность визуальных токенов.
- Эти токены проецируются в то же эмбеддинг-пространство, в котором живут текстовые токены языковой модели.
- Получившаяся последовательность подаётся в Phi-4-Reasoning как единый поток: текст + визуальные токены.
За счёт этого модель использует уже обученный языковой «мозг» и готовый зрительный модуль, не требуя полного обучения «с нуля».
Важные детали под капотом:
- До 3600 визуальных токенов на картинку. Это повышает «разрешение мышления»: модель видит больше фрагментов и может точнее разбирать интерфейсы, схемы и документы.
- Двунаправленное внимание внутри одного изображения. Модель может свободно «ходить» по пространству картинки, сопоставляя фрагменты между собой, но не применяет слишком агрессивные схемы внимания, которые часто приводят к переобучению.
- Единая система рассуждения. Модель не разделяют на «для математики» и «для картинок» — она сама выбирает режим работы.
Для рассуждений Phi-4-Reasoning-Vision-15B использует специальные блоки <think>...</think>, где разворачивает цепочку логики. Для задач без сложного мышления — маркирует ответ тегом <nothink> и отвечает напрямую.
Что это значит для вас
Главное: теперь вы можете запускать мультимодальный Phi-4-Reasoning-Vision-15B локально через llama.cpp. Без обязательного доступа к облаку, без передачи изображений и текстов на сервера Microsoft.
Где модель особенно полезна:
- GUI и продуктовые интерфейсы. Разбор скриншотов приложений, подсказки по расположению элементов, анализ юзабилити. 3600 визуальных токенов позволяют не терять детали.
- Документы и отчёты. Таблицы, сканы, схемы, много мелкого текста на одной странице. Модель может не только описывать, что на картинке, но и рассуждать: сравнивать значения, находить несостыковки, отвечать на вопросы по содержанию.
- Математика и наука. Задачи, где нужно построить цепочку выводов. Здесь пригодятся <think>-блоки, в которых Phi-4-Reasoning-Vision-15B явно проговаривает шаги решения.
- Классический компьютер вижн. Подписи к изображениям, поиск объектов, привязка текста к конкретным зонам на картинке.
Где лучше не рассчитывать на чудо:
- Тяжёлые генеративные сценарии «как GPT-4o, но локально» — 15B и локальный запуск всё равно будут уступать облачным гигантам по качеству и универсальности.
- Продакшн-кейсы без валидации. Модель обучена на тщательно отобранных датасетах, но это всё ещё генеративный ИИ: ошибки и галлюцинации возможны.
Технический порог входа — средний. Вам понадобится:
- собрать или установить llama.cpp под свою платформу;
- скачать GGUF-вариант Phi-4-Reasoning-Vision-15B;
- иметь достаточно GPU-памяти или ОЗУ, чтобы тянуть 15B параметров.
Сама модель распространяется как open-weight: веса доступны на Hugging Face. Для скачивания Hugging Face из России иногда нужен VPN — это зависит от вашего провайдера и блокировок.
Место на рынке
Phi-4-Reasoning-Vision-15B занимает нишу компактных мультимодальных моделей, которые можно реально запускать локально. В отличие от тяжёлых облачных систем, здесь есть чёткий фокус на двух вещах:
- Рассуждение. Ядро Phi-4-Reasoning и явные <think>-блоки заточены под задачи, где важна цепочка логики, а не просто описание картинки.
- Высокодетализированное зрение. До 3600 визуальных токенов и SigLIP-2 делают её особенно интересной для GUI-аналитики и сложных документов.
По вычислительным требованиям модель находится между совсем лёгкими локальными решениями и тяжёлыми облачными моделями. Microsoft потратила на обучение 240 GPU NVIDIA B200 на 4 дня — это меньше, чем у флагманских гигантов, но всё ещё серьёзный масштаб.
Прямых цифр сравнения с GPT-4o, Claude 3 или другими мультимодальными системами Microsoft не приводит. Зато понятно позиционирование: это не «самый умный ИИ», а разумный компромисс между качеством рассуждения, зрением и возможностью запустить всё у себя через llama.cpp.
Если вам нужен локальный мультимодальный ассистент для анализа интерфейсов, документов и задач с пошаговой логикой — Phi-4-Reasoning-Vision-15B в связке с llama.cpp выглядит как один из самых практичных вариантов из открытых весов сейчас.