IBM Granite 4.1: маленькие открытые модели для больших корпоративных задач — VogueTech

Что нового

IBM выпустила линейку Granite 4.1 — набор из нескольких семейств моделей под Apache 2.0:

Языковые модели Granite 4.1
- Архитектура: плотные decoder-only LLM.
- Размеры: 3B, 8B и 30B параметров, в базовой и instruct-версиях.
- 8B instruct по качеству догоняет и местами обгоняет Granite 4.0 32B Mixture-of-Experts, но с более простой архитектурой.
- Поддержка длинного контекста до 512K токенов без деградации на коротких задачах.
- Заточены под instruction following и tool calling для корпоративных сценариев.
Granite Vision 4.1
- Vision-language модель для таблиц, графиков и key-value пар (KVP) в документах.
- Тренировалась на реальных и синтетических данных под бизнес-кейсы (счета, формы, документы).
- На бенчмарках по извлечению таблиц и графиков обгоняет все модели сопоставимого размера.
Granite Speech 4.1
- Многоязычные модели распознавания речи и перевода.
- Флагман: Granite Speech 4.1 2B с word-error rate 5,33% на OpenASR — это уровень топ-участников лидерборда.
- Варианты:
  - 2B — базовый баланс качества и скорости.
  - 2B Plus — более «богатая» транскрипция (дополнительные фичи).
  - 2B NAR — неавторегрессионная модель, генерирует последовательность целиком, а не по токену, даёт существенно более высокий throughput и лучшую загрузку GPU.
Granite Guardian 4.1
- Модератор-модель на базе Granite 4.1 8B, замена Granite Guardian 3.3 8B.
- Больше категорий рисков и более детальные сигналы.
- Отслеживает: социальные предубеждения, ненависть, оскорбления, мат, галлюцинации, agentic-риски, попытки jailbreak и другие типы рисков из IBM AI Risk Atlas.
Granite Embedding Multilingual R2
- Многоязычные эмбеддинги для поиска и RAG.
- Поддержка более 200 языков, увеличенная длина контекста.
- Есть компактная модель на 97M параметров — при аккуратной обрезке и обучении даёт state-of-the-art качество в своём размере.
- Ориентир: верхние позиции на MTEB в своих классах.

Все модели Granite 4.1 доступны под Apache 2.0, их можно использовать в коммерческих продуктах, дообучать и деплоить on-prem.

Как это работает

Языковые модели Granite 4.1

IBM делает ставку не на «ещё больше данных», а на качественный и поэтапный тренинг:

Многофазное обучение на ~15 трлн токенов
- Старт — широкое предобучение на большом корпусе.
- Далее — постепенный переход к более «чистым» и специализированным данным: техническим, научным, математическим.
- Финальные фазы фокусируются на instruction following и расширении контекста до 512K токенов.
Удлинение контекста без потерь на коротких задачах
- В последних стадиях обучения модель учат работать с длинными последовательностями.
- При этом IBM заявляет, что качество на коротких промптах не падает.
Супервизия + многоступенчатый reinforcement learning
После предобучения модели проходят:
- Supervised fine-tuning на тщательно отобранных данных.
- Затем несколько стадий RL, каждая отвечает за отдельный навык:
  - следование инструкциям,
  - качество диалога,
  - фактическая точность,
  - математическое рассуждение.
    Такой подход снижает риск, что оптимизация под один критерий «сломает» другие.
Фокус на быстром inference без «долгих раздумий»
IBM прямо говорит: Granite 4.1 соревнуется с Gemma и Qwen (последние версии) в задачах instruction following и tool calling без включённого chain-of-thought.
Идея: для корпоративных задач часто важнее предсказуемая задержка и стоимость токена, чем длинные рассуждения reasoning-моделей.

Granite Vision 4.1

Granite Vision 4.1 — это VLM, заточенная под документы, а не под «красивые картинки»:

Feature injection по мотивам DeepStack
Визуальные признаки не подают в LLM одним блоком.
Их распределяют по нескольким слоям языковой модели, чтобы объединить:
- семантику (что изображено),
- и точные пространственные детали (где находится ячейка в таблице, подпись к графику и т.п.).
Специализированный датасет под enterprise-задачи
- Реальные документы с таблицами, графиками и KVP.
- Синтетические данные для усиления редких структур.
- Объём данных значительно вырос по сравнению с прошлой версией Granite Vision.
  Результат — модель уверенно извлекает номера счетов, даты, имена, значения в таблицах и подписи к графикам.
ChartNet
IBM параллельно выпустила ChartNet — датасет на миллион+ примеров для понимания графиков.
Его собрали с помощью code-guided аугментации: генерация и модификация графиков управляется кодом, а не только ручной разметкой.
ChartNet использовали при обучении Granite Vision 4.1.

Granite Speech 4.1

Granite Speech 4.1 — это семейство моделей распознавания и перевода речи с разными профилями производительности:

Transformer-архитектура, но с ключевым отличием в версии 2B NAR:
- Классические модели ASR работают авторегрессионно — генерируют текст по одному токену.
- Granite Speech 4.1 2B NAR генерирует целую последовательность за раз.
- Это даёт существенный прирост throughput и лучшее использование GPU.
Качество
Granite Speech 4.1 2B показывает WER 5,33% и входит в число топ-моделей OpenASR.
Для сравнения: многие коммерческие ASR-модели для шумных условий заметно хуже на этом бенчмарке.
Практическая проверка в полевых условиях
IBM и Royal Flying Doctor Service Австралии применили предыдущую версию Granite Speech для транскрипции речи врачей в шумных самолётах.
В тестах эта модель лучше справлялась с фоном, чем коммерческие конкуренты, из-за чего её выбрали для пилотного внедрения.

Granite Guardian 4.1

Granite Guardian 4.1 — это отдельная LLM для модерации:

Основана на Granite 4.1 8B и заменяет Granite Guardian 3.3 8B.
Оценивает и входы, и выходы других моделей.
Функции:
- фильтрация ненависти, оскорблений, мата;
- детекция социальных предубеждений;
- поиск галлюцинаций;
- отслеживание agentic-рисков;
- фиксация попыток обойти защиту LLM (jailbreak);
- другие категории из IBM AI Risk Atlas.

Guardian можно подключать к любой LLM, независимо от того, открыты её веса или нет.
Ранние версии Granite Guardian занимали верхние позиции в независимых бенчмарках guardrail-моделей.

Granite Embedding Multilingual R2

Это эмбеддинги для поиска и RAG по многоязычным корпусам:

Поддержка 200+ языков, расширенная длина контекста — можно индексировать крупные документы.
Два класса моделей:
- 97M параметров — ультра-компактная, но при этом показывает state-of-the-art качество в своём размере за счёт точной обрезки и обучения.
- Более крупная модель (размер не указан) — нацелена на верхние строчки MTEB для своего класса.

Что это значит для вас

Когда Granite 4.1 действительно полезен

1. Корпоративные ассистенты и внутренние чат-боты
Granite 4.1 3B/8B подойдёт, если вам нужно:

отвечать на вопросы сотрудников по внутренним регламентам;
запускать tool calling (вызовы API, базы данных, CRM) по текстовым запросам;
обрабатывать длинные документы: регламенты, отчёты, договоры — благодаря контексту до 512K токенов.

Вы выигрываете за счёт:

меньших моделей → проще и дешевле запускать on-prem;
предсказуемой задержки — без длинных цепочек рассуждений;
открытой лицензии Apache 2.0 — можно встроить в продукт без сложных юридических согласований.

2. Документооборот, финансы, логистика
Granite Vision 4.1 создана под классические pain points b2b-сектора:

извлечение таблиц из PDF и сканов;
разбор графиков (line/bar charts и др.);
вытаскивание KVP: номер счёта, дата, сумма, адрес, ИНН и т.п.

Это пригодится:

банкам и финтеху — автоматическая обработка счетов и выписок;
логистике — разбор накладных и актов;
крупному ритейлу — обработка отчётов поставщиков.

Если у вас уже есть классический OCR, Granite Vision можно использовать поверх него, чтобы:

понять структуру документа;
связать текст с таблицами и графиками;
собрать данные в нормализованный вид.

3. Речь: колл-центры, медицина, полевые службы
Granite Speech 4.1 2B/2B Plus/2B NAR пригодится, если нужно:

транскрибировать звонки в колл-центре;
записывать голосовые отчёты сотрудников в полях;
переводить речь между языками.

Где особенно уместен 2B NAR:

массовая обработка аудио в офлайне, где важен throughput;
edge-сценарии с ограниченными ресурсами, но требованием к скорости.

Если для вас критичны шумные условия (производство, транспорт, медицина в дороге), на Granite Speech уже есть референс: проект с Royal Flying Doctor Service.

4. Безопасность и комплаенс
Granite Guardian 4.1 нужен там, где вы не можете позволить себе «случайные» ответы модели:

клиентские чат-боты;
ассистенты в банке или страховой;
контент-модерация UGC.

Практическая схема:

основная LLM генерирует ответ;
Granite Guardian проверяет его по нескольким осям (риск, токсичность, галлюцинации);
система либо пропускает ответ, либо редактирует, либо отправляет на ручную проверку.

5. Многоязычный поиск и RAG
Granite Embedding Multilingual R2 пригодится, если у вас:

архив документов на десятках языков;
глобальный продукт с поддержкой региональных рынков;
задача построить один векторный индекс для многих языков.

Сценарии:

многоязычный help center;
поиск по юридическим документам в разных юрисдикциях;
RAG-системы, где запрос на одном языке, а документы на другом.

Когда Granite 4.1 может не подойти

Вам нужен максимальный уровень reasoning на уровне GPT-4-класса для сложных научных и творческих задач. Granite 4.1 специально оптимизировали под instruction following и tool calling без chain-of-thought.
Вы хотите облако «под ключ» с UI и экосистемой, а не работать с моделями напрямую. Granite 4.1 — это прежде всего модели и веса, а не SaaS-продукт.
Вам критичны локальные ограничения доступа: если инфраструктура IBM или сторонних хостингов недоступна в России без VPN, придётся разворачивать модели on-prem или в доступном облаке.

Доступность в России

Сами модели Granite 4.1 распространяются под Apache 2.0 и могут работать на ваших серверах или в любом доступном облаке.
Если вы планируете использовать хостинг от IBM или платформы, заблокированные в России, скорее всего понадобится VPN и юридическая проверка.
On-prem-развёртывание на своих GPU/CPU ограничено только вашей инфраструктурой.

Место на рынке

Языковые модели

IBM прямо сравнивает Granite 4.1 с последними версиями Gemma и Qwen:

по задачам instruction following и tool calling Granite 4.1 показывает конкурентные результаты при отключённом «chain-of-thought»;
Granite 4.1 8B instruct стабильно догоняет или обгоняет Granite 4.0 32B Mixture-of-Experts — при этом архитектура проще и удобнее для дообучения.

Чётких цифр по сравнению со GPT-4o, Claude 3.x или другими проприетарными моделями IBM не приводит.
Фокус — на открытом стеке, где Granite 4.1 борется с Gemma и Qwen в классе плотных decoder-only моделей.

Ключевое конкурентное преимущество Granite 4.1:

длинный контекст до 512K у моделей среднего размера;
Apache 2.0 — редкость для свежих корпоративных LLM;
заточка под tool calling без тяжёлого reasoning, что снижает стоимость токена и задержку.

Vision

В сегменте VLM для документов Granite Vision 4.1 ориентируется на задачи, где часто используют дорогие frontier-модели:

IBM заявляет: Granite Vision 4.1 справляется с извлечением таблиц и графиков на уровне этих моделей, но существенно дешевле в эксплуатации.
На лидербордах для таблиц и графиков Granite Vision 4.1 опережает все модели сопоставимого размера.

Цифр по сравнению с GPT-4o или Claude 3 Opus для vision IBM не даёт, но позиционирование понятное:
«замена дорогих универсальных VLM там, где нужны именно документы, а не общее зрение».

Speech

Granite Speech 4.1 2B с WER 5,33% входит в число лучших моделей OpenASR.
Это ставит её на один уровень с ведущими открытыми и коммерческими ASR-решениями.

Особенность 2B NAR — неавторегрессионная архитектура:

многие популярные ASR-модели (включая крупные коммерческие) работают токен за токеном;
Granite Speech 4.1 2B NAR генерирует последовательность целиком и получает заметно более высокий throughput при той же аппаратуре.

Для задач, где важна массовая обработка аудио, это серьёзный аргумент в пользу Granite.

Guardian и эмбеддинги

Granite Guardian 4.1 продолжает линию моделей, которые уже занимали топовые позиции на бенчмарках guardrail-моделей.
IBM добавила новые категории рисков и более детальные сигналы, что делает Guardian удобным для сложных корпоративных политик.

Granite Embedding Multilingual R2 целится в верх MTEB по нескольким метрикам:

компактная модель 97M параметров показывает state-of-the-art качество для своего размера;
большая модель нацелена на топ-чарты MTEB в своём классе.

В сумме Granite 4.1 закрывает сразу несколько сегментов:

LLM для текста и инструментов;
VLM для документов;
ASR и перевод речи;
guardrails;
многоязычные эмбеддинги.

Это не одна «супермодель», а набор специализированных кирпичей для сборки корпоративных AI-систем от RAG до голосовых ассистентов и документооборота.