- Дата публикации
IBM Granite 4.1: маленькие открытые модели для больших корпоративных задач
Что нового
IBM выпустила линейку Granite 4.1 — набор из нескольких семейств моделей под Apache 2.0:
-
Языковые модели Granite 4.1
- Архитектура: плотные decoder-only LLM.
- Размеры: 3B, 8B и 30B параметров, в базовой и instruct-версиях.
- 8B instruct по качеству догоняет и местами обгоняет Granite 4.0 32B Mixture-of-Experts, но с более простой архитектурой.
- Поддержка длинного контекста до 512K токенов без деградации на коротких задачах.
- Заточены под instruction following и tool calling для корпоративных сценариев.
-
Granite Vision 4.1
- Vision-language модель для таблиц, графиков и key-value пар (KVP) в документах.
- Тренировалась на реальных и синтетических данных под бизнес-кейсы (счета, формы, документы).
- На бенчмарках по извлечению таблиц и графиков обгоняет все модели сопоставимого размера.
-
Granite Speech 4.1
- Многоязычные модели распознавания речи и перевода.
- Флагман: Granite Speech 4.1 2B с word-error rate 5,33% на OpenASR — это уровень топ-участников лидерборда.
- Варианты:
- 2B — базовый баланс качества и скорости.
- 2B Plus — более «богатая» транскрипция (дополнительные фичи).
- 2B NAR — неавторегрессионная модель, генерирует последовательность целиком, а не по токену, даёт существенно более высокий throughput и лучшую загрузку GPU.
-
Granite Guardian 4.1
- Модератор-модель на базе Granite 4.1 8B, замена Granite Guardian 3.3 8B.
- Больше категорий рисков и более детальные сигналы.
- Отслеживает: социальные предубеждения, ненависть, оскорбления, мат, галлюцинации, agentic-риски, попытки jailbreak и другие типы рисков из IBM AI Risk Atlas.
-
Granite Embedding Multilingual R2
- Многоязычные эмбеддинги для поиска и RAG.
- Поддержка более 200 языков, увеличенная длина контекста.
- Есть компактная модель на 97M параметров — при аккуратной обрезке и обучении даёт state-of-the-art качество в своём размере.
- Ориентир: верхние позиции на MTEB в своих классах.
Все модели Granite 4.1 доступны под Apache 2.0, их можно использовать в коммерческих продуктах, дообучать и деплоить on-prem.
Как это работает
Языковые модели Granite 4.1
IBM делает ставку не на «ещё больше данных», а на качественный и поэтапный тренинг:
-
Многофазное обучение на ~15 трлн токенов
- Старт — широкое предобучение на большом корпусе.
- Далее — постепенный переход к более «чистым» и специализированным данным: техническим, научным, математическим.
- Финальные фазы фокусируются на instruction following и расширении контекста до 512K токенов.
-
Удлинение контекста без потерь на коротких задачах
- В последних стадиях обучения модель учат работать с длинными последовательностями.
- При этом IBM заявляет, что качество на коротких промптах не падает.
-
Супервизия + многоступенчатый reinforcement learning
После предобучения модели проходят:- Supervised fine-tuning на тщательно отобранных данных.
- Затем несколько стадий RL, каждая отвечает за отдельный навык:
- следование инструкциям,
- качество диалога,
- фактическая точность,
- математическое рассуждение.
Такой подход снижает риск, что оптимизация под один критерий «сломает» другие.
-
Фокус на быстром inference без «долгих раздумий»
IBM прямо говорит: Granite 4.1 соревнуется с Gemma и Qwen (последние версии) в задачах instruction following и tool calling без включённого chain-of-thought.
Идея: для корпоративных задач часто важнее предсказуемая задержка и стоимость токена, чем длинные рассуждения reasoning-моделей.
Granite Vision 4.1
Granite Vision 4.1 — это VLM, заточенная под документы, а не под «красивые картинки»:
-
Feature injection по мотивам DeepStack
Визуальные признаки не подают в LLM одним блоком.
Их распределяют по нескольким слоям языковой модели, чтобы объединить:- семантику (что изображено),
- и точные пространственные детали (где находится ячейка в таблице, подпись к графику и т.п.).
-
Специализированный датасет под enterprise-задачи
- Реальные документы с таблицами, графиками и KVP.
- Синтетические данные для усиления редких структур.
- Объём данных значительно вырос по сравнению с прошлой версией Granite Vision.
Результат — модель уверенно извлекает номера счетов, даты, имена, значения в таблицах и подписи к графикам.
-
ChartNet
IBM параллельно выпустила ChartNet — датасет на миллион+ примеров для понимания графиков.
Его собрали с помощью code-guided аугментации: генерация и модификация графиков управляется кодом, а не только ручной разметкой.
ChartNet использовали при обучении Granite Vision 4.1.
Granite Speech 4.1
Granite Speech 4.1 — это семейство моделей распознавания и перевода речи с разными профилями производительности:
-
Transformer-архитектура, но с ключевым отличием в версии 2B NAR:
- Классические модели ASR работают авторегрессионно — генерируют текст по одному токену.
- Granite Speech 4.1 2B NAR генерирует целую последовательность за раз.
- Это даёт существенный прирост throughput и лучшее использование GPU.
-
Качество
Granite Speech 4.1 2B показывает WER 5,33% и входит в число топ-моделей OpenASR.
Для сравнения: многие коммерческие ASR-модели для шумных условий заметно хуже на этом бенчмарке. -
Практическая проверка в полевых условиях
IBM и Royal Flying Doctor Service Австралии применили предыдущую версию Granite Speech для транскрипции речи врачей в шумных самолётах.
В тестах эта модель лучше справлялась с фоном, чем коммерческие конкуренты, из-за чего её выбрали для пилотного внедрения.
Granite Guardian 4.1
Granite Guardian 4.1 — это отдельная LLM для модерации:
- Основана на Granite 4.1 8B и заменяет Granite Guardian 3.3 8B.
- Оценивает и входы, и выходы других моделей.
- Функции:
- фильтрация ненависти, оскорблений, мата;
- детекция социальных предубеждений;
- поиск галлюцинаций;
- отслеживание agentic-рисков;
- фиксация попыток обойти защиту LLM (jailbreak);
- другие категории из IBM AI Risk Atlas.
Guardian можно подключать к любой LLM, независимо от того, открыты её веса или нет.
Ранние версии Granite Guardian занимали верхние позиции в независимых бенчмарках guardrail-моделей.
Granite Embedding Multilingual R2
Это эмбеддинги для поиска и RAG по многоязычным корпусам:
- Поддержка 200+ языков, расширенная длина контекста — можно индексировать крупные документы.
- Два класса моделей:
- 97M параметров — ультра-компактная, но при этом показывает state-of-the-art качество в своём размере за счёт точной обрезки и обучения.
- Более крупная модель (размер не указан) — нацелена на верхние строчки MTEB для своего класса.
Что это значит для вас
Когда Granite 4.1 действительно полезен
1. Корпоративные ассистенты и внутренние чат-боты
Granite 4.1 3B/8B подойдёт, если вам нужно:
- отвечать на вопросы сотрудников по внутренним регламентам;
- запускать tool calling (вызовы API, базы данных, CRM) по текстовым запросам;
- обрабатывать длинные документы: регламенты, отчёты, договоры — благодаря контексту до 512K токенов.
Вы выигрываете за счёт:
- меньших моделей → проще и дешевле запускать on-prem;
- предсказуемой задержки — без длинных цепочек рассуждений;
- открытой лицензии Apache 2.0 — можно встроить в продукт без сложных юридических согласований.
2. Документооборот, финансы, логистика
Granite Vision 4.1 создана под классические pain points b2b-сектора:
- извлечение таблиц из PDF и сканов;
- разбор графиков (line/bar charts и др.);
- вытаскивание KVP: номер счёта, дата, сумма, адрес, ИНН и т.п.
Это пригодится:
- банкам и финтеху — автоматическая обработка счетов и выписок;
- логистике — разбор накладных и актов;
- крупному ритейлу — обработка отчётов поставщиков.
Если у вас уже есть классический OCR, Granite Vision можно использовать поверх него, чтобы:
- понять структуру документа;
- связать текст с таблицами и графиками;
- собрать данные в нормализованный вид.
3. Речь: колл-центры, медицина, полевые службы
Granite Speech 4.1 2B/2B Plus/2B NAR пригодится, если нужно:
- транскрибировать звонки в колл-центре;
- записывать голосовые отчёты сотрудников в полях;
- переводить речь между языками.
Где особенно уместен 2B NAR:
- массовая обработка аудио в офлайне, где важен throughput;
- edge-сценарии с ограниченными ресурсами, но требованием к скорости.
Если для вас критичны шумные условия (производство, транспорт, медицина в дороге), на Granite Speech уже есть референс: проект с Royal Flying Doctor Service.
4. Безопасность и комплаенс
Granite Guardian 4.1 нужен там, где вы не можете позволить себе «случайные» ответы модели:
- клиентские чат-боты;
- ассистенты в банке или страховой;
- контент-модерация UGC.
Практическая схема:
- основная LLM генерирует ответ;
- Granite Guardian проверяет его по нескольким осям (риск, токсичность, галлюцинации);
- система либо пропускает ответ, либо редактирует, либо отправляет на ручную проверку.
5. Многоязычный поиск и RAG
Granite Embedding Multilingual R2 пригодится, если у вас:
- архив документов на десятках языков;
- глобальный продукт с поддержкой региональных рынков;
- задача построить один векторный индекс для многих языков.
Сценарии:
- многоязычный help center;
- поиск по юридическим документам в разных юрисдикциях;
- RAG-системы, где запрос на одном языке, а документы на другом.
Когда Granite 4.1 может не подойти
- Вам нужен максимальный уровень reasoning на уровне GPT-4-класса для сложных научных и творческих задач. Granite 4.1 специально оптимизировали под instruction following и tool calling без chain-of-thought.
- Вы хотите облако «под ключ» с UI и экосистемой, а не работать с моделями напрямую. Granite 4.1 — это прежде всего модели и веса, а не SaaS-продукт.
- Вам критичны локальные ограничения доступа: если инфраструктура IBM или сторонних хостингов недоступна в России без VPN, придётся разворачивать модели on-prem или в доступном облаке.
Доступность в России
Сами модели Granite 4.1 распространяются под Apache 2.0 и могут работать на ваших серверах или в любом доступном облаке.
Если вы планируете использовать хостинг от IBM или платформы, заблокированные в России, скорее всего понадобится VPN и юридическая проверка.
On-prem-развёртывание на своих GPU/CPU ограничено только вашей инфраструктурой.
Место на рынке
Языковые модели
IBM прямо сравнивает Granite 4.1 с последними версиями Gemma и Qwen:
- по задачам instruction following и tool calling Granite 4.1 показывает конкурентные результаты при отключённом «chain-of-thought»;
- Granite 4.1 8B instruct стабильно догоняет или обгоняет Granite 4.0 32B Mixture-of-Experts — при этом архитектура проще и удобнее для дообучения.
Чётких цифр по сравнению со GPT-4o, Claude 3.x или другими проприетарными моделями IBM не приводит.
Фокус — на открытом стеке, где Granite 4.1 борется с Gemma и Qwen в классе плотных decoder-only моделей.
Ключевое конкурентное преимущество Granite 4.1:
- длинный контекст до 512K у моделей среднего размера;
- Apache 2.0 — редкость для свежих корпоративных LLM;
- заточка под tool calling без тяжёлого reasoning, что снижает стоимость токена и задержку.
Vision
В сегменте VLM для документов Granite Vision 4.1 ориентируется на задачи, где часто используют дорогие frontier-модели:
- IBM заявляет: Granite Vision 4.1 справляется с извлечением таблиц и графиков на уровне этих моделей, но существенно дешевле в эксплуатации.
- На лидербордах для таблиц и графиков Granite Vision 4.1 опережает все модели сопоставимого размера.
Цифр по сравнению с GPT-4o или Claude 3 Opus для vision IBM не даёт, но позиционирование понятное:
«замена дорогих универсальных VLM там, где нужны именно документы, а не общее зрение».
Speech
Granite Speech 4.1 2B с WER 5,33% входит в число лучших моделей OpenASR.
Это ставит её на один уровень с ведущими открытыми и коммерческими ASR-решениями.
Особенность 2B NAR — неавторегрессионная архитектура:
- многие популярные ASR-модели (включая крупные коммерческие) работают токен за токеном;
- Granite Speech 4.1 2B NAR генерирует последовательность целиком и получает заметно более высокий throughput при той же аппаратуре.
Для задач, где важна массовая обработка аудио, это серьёзный аргумент в пользу Granite.
Guardian и эмбеддинги
Granite Guardian 4.1 продолжает линию моделей, которые уже занимали топовые позиции на бенчмарках guardrail-моделей.
IBM добавила новые категории рисков и более детальные сигналы, что делает Guardian удобным для сложных корпоративных политик.
Granite Embedding Multilingual R2 целится в верх MTEB по нескольким метрикам:
- компактная модель 97M параметров показывает state-of-the-art качество для своего размера;
- большая модель нацелена на топ-чарты MTEB в своём классе.
В сумме Granite 4.1 закрывает сразу несколько сегментов:
- LLM для текста и инструментов;
- VLM для документов;
- ASR и перевод речи;
- guardrails;
- многоязычные эмбеддинги.
Это не одна «супермодель», а набор специализированных кирпичей для сборки корпоративных AI-систем от RAG до голосовых ассистентов и документооборота.