Phi-4 Reasoning Vision 15B заработала в llama.cpp: локальная мультимодальная ИИ-сборка на вашем ПК — VogueTech

Что появилось / что изменилось

В llama.cpp добавили поддержку Phi-4-Reasoning-Vision-15B — компактной мультимодальной модели от Microsoft. Её уже конвертировали в формат GGUF, готовый для локального запуска: https://huggingface.co/dranger003/Phi-4-reasoning-vision-15B-GGUF

Ключевое изменение: теперь эту модель можно запускать через llama.cpp на обычных потребительских GPU и даже на мощных CPU, без облака Microsoft. Она умеет работать и с текстом, и с картинками, а главное — выполнять сложное рассуждение по обоим типам данных.

Размер — 15B параметров. Это заметно компактнее тяжёлых облачных мультимодальных моделей, но всё ещё достаточно крупно, чтобы требовать приличный объём видеопамяти или ОЗУ. Контекст в исходном описании не указан, но важная цифра есть по картинкам: до 3600 визуальных токенов на одно изображение. Это позволяет разбирать сложные интерфейсы, длинные документы и насыщенные детали сцены.

Модель уже прошла Supervised Fine-Tuning (SFT) на смеси датасетов для рассуждения и «обычных» визуальных задач. На её обучение Microsoft потратила 240 GPU NVIDIA B200 в течение 4 дней — это умеренные вычислительные затраты для такого класса систем.

Как это работает

Phi-4-Reasoning-Vision-15B строится вокруг языковой части Phi-4-Reasoning и визуального энкодера SigLIP-2. Архитектура — mid-fusion.

Что это значит на практике:

SigLIP-2 превращает изображение в последовательность визуальных токенов.
Эти токены проецируются в то же эмбеддинг-пространство, в котором живут текстовые токены языковой модели.
Получившаяся последовательность подаётся в Phi-4-Reasoning как единый поток: текст + визуальные токены.

За счёт этого модель использует уже обученный языковой «мозг» и готовый зрительный модуль, не требуя полного обучения «с нуля».

Важные детали под капотом:

До 3600 визуальных токенов на картинку. Это повышает «разрешение мышления»: модель видит больше фрагментов и может точнее разбирать интерфейсы, схемы и документы.
Двунаправленное внимание внутри одного изображения. Модель может свободно «ходить» по пространству картинки, сопоставляя фрагменты между собой, но не применяет слишком агрессивные схемы внимания, которые часто приводят к переобучению.
Единая система рассуждения. Модель не разделяют на «для математики» и «для картинок» — она сама выбирает режим работы.

Для рассуждений Phi-4-Reasoning-Vision-15B использует специальные блоки <think>...</think>, где разворачивает цепочку логики. Для задач без сложного мышления — маркирует ответ тегом <nothink> и отвечает напрямую.

Что это значит для вас

Главное: теперь вы можете запускать мультимодальный Phi-4-Reasoning-Vision-15B локально через llama.cpp. Без обязательного доступа к облаку, без передачи изображений и текстов на сервера Microsoft.

Где модель особенно полезна:

GUI и продуктовые интерфейсы. Разбор скриншотов приложений, подсказки по расположению элементов, анализ юзабилити. 3600 визуальных токенов позволяют не терять детали.
Документы и отчёты. Таблицы, сканы, схемы, много мелкого текста на одной странице. Модель может не только описывать, что на картинке, но и рассуждать: сравнивать значения, находить несостыковки, отвечать на вопросы по содержанию.
Математика и наука. Задачи, где нужно построить цепочку выводов. Здесь пригодятся <think>-блоки, в которых Phi-4-Reasoning-Vision-15B явно проговаривает шаги решения.
Классический компьютер вижн. Подписи к изображениям, поиск объектов, привязка текста к конкретным зонам на картинке.

Где лучше не рассчитывать на чудо:

Тяжёлые генеративные сценарии «как GPT-4o, но локально» — 15B и локальный запуск всё равно будут уступать облачным гигантам по качеству и универсальности.
Продакшн-кейсы без валидации. Модель обучена на тщательно отобранных датасетах, но это всё ещё генеративный ИИ: ошибки и галлюцинации возможны.

Технический порог входа — средний. Вам понадобится:

собрать или установить llama.cpp под свою платформу;
скачать GGUF-вариант Phi-4-Reasoning-Vision-15B;
иметь достаточно GPU-памяти или ОЗУ, чтобы тянуть 15B параметров.

Сама модель распространяется как open-weight: веса доступны на Hugging Face. Для скачивания Hugging Face из России иногда нужен VPN — это зависит от вашего провайдера и блокировок.

Место на рынке

Phi-4-Reasoning-Vision-15B занимает нишу компактных мультимодальных моделей, которые можно реально запускать локально. В отличие от тяжёлых облачных систем, здесь есть чёткий фокус на двух вещах:

Рассуждение. Ядро Phi-4-Reasoning и явные <think>-блоки заточены под задачи, где важна цепочка логики, а не просто описание картинки.
Высокодетализированное зрение. До 3600 визуальных токенов и SigLIP-2 делают её особенно интересной для GUI-аналитики и сложных документов.

По вычислительным требованиям модель находится между совсем лёгкими локальными решениями и тяжёлыми облачными моделями. Microsoft потратила на обучение 240 GPU NVIDIA B200 на 4 дня — это меньше, чем у флагманских гигантов, но всё ещё серьёзный масштаб.

Прямых цифр сравнения с GPT-4o, Claude 3 или другими мультимодальными системами Microsoft не приводит. Зато понятно позиционирование: это не «самый умный ИИ», а разумный компромисс между качеством рассуждения, зрением и возможностью запустить всё у себя через llama.cpp.

Если вам нужен локальный мультимодальный ассистент для анализа интерфейсов, документов и задач с пошаговой логикой — Phi-4-Reasoning-Vision-15B в связке с llama.cpp выглядит как один из самых практичных вариантов из открытых весов сейчас.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также