Дата публикации
ai_products

IBM Granite 4.1: маленькие открытые модели для больших корпоративных задач

Что нового

IBM выпустила линейку Granite 4.1 — набор из нескольких семейств моделей под Apache 2.0:

  • Языковые модели Granite 4.1

    • Архитектура: плотные decoder-only LLM.
    • Размеры: 3B, 8B и 30B параметров, в базовой и instruct-версиях.
    • 8B instruct по качеству догоняет и местами обгоняет Granite 4.0 32B Mixture-of-Experts, но с более простой архитектурой.
    • Поддержка длинного контекста до 512K токенов без деградации на коротких задачах.
    • Заточены под instruction following и tool calling для корпоративных сценариев.
  • Granite Vision 4.1

    • Vision-language модель для таблиц, графиков и key-value пар (KVP) в документах.
    • Тренировалась на реальных и синтетических данных под бизнес-кейсы (счета, формы, документы).
    • На бенчмарках по извлечению таблиц и графиков обгоняет все модели сопоставимого размера.
  • Granite Speech 4.1

    • Многоязычные модели распознавания речи и перевода.
    • Флагман: Granite Speech 4.1 2B с word-error rate 5,33% на OpenASR — это уровень топ-участников лидерборда.
    • Варианты:
      • 2B — базовый баланс качества и скорости.
      • 2B Plus — более «богатая» транскрипция (дополнительные фичи).
      • 2B NAR — неавторегрессионная модель, генерирует последовательность целиком, а не по токену, даёт существенно более высокий throughput и лучшую загрузку GPU.
  • Granite Guardian 4.1

    • Модератор-модель на базе Granite 4.1 8B, замена Granite Guardian 3.3 8B.
    • Больше категорий рисков и более детальные сигналы.
    • Отслеживает: социальные предубеждения, ненависть, оскорбления, мат, галлюцинации, agentic-риски, попытки jailbreak и другие типы рисков из IBM AI Risk Atlas.
  • Granite Embedding Multilingual R2

    • Многоязычные эмбеддинги для поиска и RAG.
    • Поддержка более 200 языков, увеличенная длина контекста.
    • Есть компактная модель на 97M параметров — при аккуратной обрезке и обучении даёт state-of-the-art качество в своём размере.
    • Ориентир: верхние позиции на MTEB в своих классах.

Все модели Granite 4.1 доступны под Apache 2.0, их можно использовать в коммерческих продуктах, дообучать и деплоить on-prem.


Как это работает

Языковые модели Granite 4.1

IBM делает ставку не на «ещё больше данных», а на качественный и поэтапный тренинг:

  1. Многофазное обучение на ~15 трлн токенов

    • Старт — широкое предобучение на большом корпусе.
    • Далее — постепенный переход к более «чистым» и специализированным данным: техническим, научным, математическим.
    • Финальные фазы фокусируются на instruction following и расширении контекста до 512K токенов.
  2. Удлинение контекста без потерь на коротких задачах

    • В последних стадиях обучения модель учат работать с длинными последовательностями.
    • При этом IBM заявляет, что качество на коротких промптах не падает.
  3. Супервизия + многоступенчатый reinforcement learning
    После предобучения модели проходят:

    • Supervised fine-tuning на тщательно отобранных данных.
    • Затем несколько стадий RL, каждая отвечает за отдельный навык:
      • следование инструкциям,
      • качество диалога,
      • фактическая точность,
      • математическое рассуждение.
        Такой подход снижает риск, что оптимизация под один критерий «сломает» другие.
  4. Фокус на быстром inference без «долгих раздумий»
    IBM прямо говорит: Granite 4.1 соревнуется с Gemma и Qwen (последние версии) в задачах instruction following и tool calling без включённого chain-of-thought.
    Идея: для корпоративных задач часто важнее предсказуемая задержка и стоимость токена, чем длинные рассуждения reasoning-моделей.

Granite Vision 4.1

Granite Vision 4.1 — это VLM, заточенная под документы, а не под «красивые картинки»:

  • Feature injection по мотивам DeepStack
    Визуальные признаки не подают в LLM одним блоком.
    Их распределяют по нескольким слоям языковой модели, чтобы объединить:

    • семантику (что изображено),
    • и точные пространственные детали (где находится ячейка в таблице, подпись к графику и т.п.).
  • Специализированный датасет под enterprise-задачи

    • Реальные документы с таблицами, графиками и KVP.
    • Синтетические данные для усиления редких структур.
    • Объём данных значительно вырос по сравнению с прошлой версией Granite Vision.
      Результат — модель уверенно извлекает номера счетов, даты, имена, значения в таблицах и подписи к графикам.
  • ChartNet
    IBM параллельно выпустила ChartNet — датасет на миллион+ примеров для понимания графиков.
    Его собрали с помощью code-guided аугментации: генерация и модификация графиков управляется кодом, а не только ручной разметкой.
    ChartNet использовали при обучении Granite Vision 4.1.

Granite Speech 4.1

Granite Speech 4.1 — это семейство моделей распознавания и перевода речи с разными профилями производительности:

  • Transformer-архитектура, но с ключевым отличием в версии 2B NAR:

    • Классические модели ASR работают авторегрессионно — генерируют текст по одному токену.
    • Granite Speech 4.1 2B NAR генерирует целую последовательность за раз.
    • Это даёт существенный прирост throughput и лучшее использование GPU.
  • Качество
    Granite Speech 4.1 2B показывает WER 5,33% и входит в число топ-моделей OpenASR.
    Для сравнения: многие коммерческие ASR-модели для шумных условий заметно хуже на этом бенчмарке.

  • Практическая проверка в полевых условиях
    IBM и Royal Flying Doctor Service Австралии применили предыдущую версию Granite Speech для транскрипции речи врачей в шумных самолётах.
    В тестах эта модель лучше справлялась с фоном, чем коммерческие конкуренты, из-за чего её выбрали для пилотного внедрения.

Granite Guardian 4.1

Granite Guardian 4.1 — это отдельная LLM для модерации:

  • Основана на Granite 4.1 8B и заменяет Granite Guardian 3.3 8B.
  • Оценивает и входы, и выходы других моделей.
  • Функции:
    • фильтрация ненависти, оскорблений, мата;
    • детекция социальных предубеждений;
    • поиск галлюцинаций;
    • отслеживание agentic-рисков;
    • фиксация попыток обойти защиту LLM (jailbreak);
    • другие категории из IBM AI Risk Atlas.

Guardian можно подключать к любой LLM, независимо от того, открыты её веса или нет.
Ранние версии Granite Guardian занимали верхние позиции в независимых бенчмарках guardrail-моделей.

Granite Embedding Multilingual R2

Это эмбеддинги для поиска и RAG по многоязычным корпусам:

  • Поддержка 200+ языков, расширенная длина контекста — можно индексировать крупные документы.
  • Два класса моделей:
    • 97M параметров — ультра-компактная, но при этом показывает state-of-the-art качество в своём размере за счёт точной обрезки и обучения.
    • Более крупная модель (размер не указан) — нацелена на верхние строчки MTEB для своего класса.

Что это значит для вас

Когда Granite 4.1 действительно полезен

1. Корпоративные ассистенты и внутренние чат-боты
Granite 4.1 3B/8B подойдёт, если вам нужно:

  • отвечать на вопросы сотрудников по внутренним регламентам;
  • запускать tool calling (вызовы API, базы данных, CRM) по текстовым запросам;
  • обрабатывать длинные документы: регламенты, отчёты, договоры — благодаря контексту до 512K токенов.

Вы выигрываете за счёт:

  • меньших моделей → проще и дешевле запускать on-prem;
  • предсказуемой задержки — без длинных цепочек рассуждений;
  • открытой лицензии Apache 2.0 — можно встроить в продукт без сложных юридических согласований.

2. Документооборот, финансы, логистика
Granite Vision 4.1 создана под классические pain points b2b-сектора:

  • извлечение таблиц из PDF и сканов;
  • разбор графиков (line/bar charts и др.);
  • вытаскивание KVP: номер счёта, дата, сумма, адрес, ИНН и т.п.

Это пригодится:

  • банкам и финтеху — автоматическая обработка счетов и выписок;
  • логистике — разбор накладных и актов;
  • крупному ритейлу — обработка отчётов поставщиков.

Если у вас уже есть классический OCR, Granite Vision можно использовать поверх него, чтобы:

  • понять структуру документа;
  • связать текст с таблицами и графиками;
  • собрать данные в нормализованный вид.

3. Речь: колл-центры, медицина, полевые службы
Granite Speech 4.1 2B/2B Plus/2B NAR пригодится, если нужно:

  • транскрибировать звонки в колл-центре;
  • записывать голосовые отчёты сотрудников в полях;
  • переводить речь между языками.

Где особенно уместен 2B NAR:

  • массовая обработка аудио в офлайне, где важен throughput;
  • edge-сценарии с ограниченными ресурсами, но требованием к скорости.

Если для вас критичны шумные условия (производство, транспорт, медицина в дороге), на Granite Speech уже есть референс: проект с Royal Flying Doctor Service.

4. Безопасность и комплаенс
Granite Guardian 4.1 нужен там, где вы не можете позволить себе «случайные» ответы модели:

  • клиентские чат-боты;
  • ассистенты в банке или страховой;
  • контент-модерация UGC.

Практическая схема:

  • основная LLM генерирует ответ;
  • Granite Guardian проверяет его по нескольким осям (риск, токсичность, галлюцинации);
  • система либо пропускает ответ, либо редактирует, либо отправляет на ручную проверку.

5. Многоязычный поиск и RAG
Granite Embedding Multilingual R2 пригодится, если у вас:

  • архив документов на десятках языков;
  • глобальный продукт с поддержкой региональных рынков;
  • задача построить один векторный индекс для многих языков.

Сценарии:

  • многоязычный help center;
  • поиск по юридическим документам в разных юрисдикциях;
  • RAG-системы, где запрос на одном языке, а документы на другом.

Когда Granite 4.1 может не подойти

  • Вам нужен максимальный уровень reasoning на уровне GPT-4-класса для сложных научных и творческих задач. Granite 4.1 специально оптимизировали под instruction following и tool calling без chain-of-thought.
  • Вы хотите облако «под ключ» с UI и экосистемой, а не работать с моделями напрямую. Granite 4.1 — это прежде всего модели и веса, а не SaaS-продукт.
  • Вам критичны локальные ограничения доступа: если инфраструктура IBM или сторонних хостингов недоступна в России без VPN, придётся разворачивать модели on-prem или в доступном облаке.

Доступность в России

Сами модели Granite 4.1 распространяются под Apache 2.0 и могут работать на ваших серверах или в любом доступном облаке.
Если вы планируете использовать хостинг от IBM или платформы, заблокированные в России, скорее всего понадобится VPN и юридическая проверка.
On-prem-развёртывание на своих GPU/CPU ограничено только вашей инфраструктурой.


Место на рынке

Языковые модели

IBM прямо сравнивает Granite 4.1 с последними версиями Gemma и Qwen:

  • по задачам instruction following и tool calling Granite 4.1 показывает конкурентные результаты при отключённом «chain-of-thought»;
  • Granite 4.1 8B instruct стабильно догоняет или обгоняет Granite 4.0 32B Mixture-of-Experts — при этом архитектура проще и удобнее для дообучения.

Чётких цифр по сравнению со GPT-4o, Claude 3.x или другими проприетарными моделями IBM не приводит.
Фокус — на открытом стеке, где Granite 4.1 борется с Gemma и Qwen в классе плотных decoder-only моделей.

Ключевое конкурентное преимущество Granite 4.1:

  • длинный контекст до 512K у моделей среднего размера;
  • Apache 2.0 — редкость для свежих корпоративных LLM;
  • заточка под tool calling без тяжёлого reasoning, что снижает стоимость токена и задержку.

Vision

В сегменте VLM для документов Granite Vision 4.1 ориентируется на задачи, где часто используют дорогие frontier-модели:

  • IBM заявляет: Granite Vision 4.1 справляется с извлечением таблиц и графиков на уровне этих моделей, но существенно дешевле в эксплуатации.
  • На лидербордах для таблиц и графиков Granite Vision 4.1 опережает все модели сопоставимого размера.

Цифр по сравнению с GPT-4o или Claude 3 Opus для vision IBM не даёт, но позиционирование понятное:
«замена дорогих универсальных VLM там, где нужны именно документы, а не общее зрение».

Speech

Granite Speech 4.1 2B с WER 5,33% входит в число лучших моделей OpenASR.
Это ставит её на один уровень с ведущими открытыми и коммерческими ASR-решениями.

Особенность 2B NAR — неавторегрессионная архитектура:

  • многие популярные ASR-модели (включая крупные коммерческие) работают токен за токеном;
  • Granite Speech 4.1 2B NAR генерирует последовательность целиком и получает заметно более высокий throughput при той же аппаратуре.

Для задач, где важна массовая обработка аудио, это серьёзный аргумент в пользу Granite.

Guardian и эмбеддинги

Granite Guardian 4.1 продолжает линию моделей, которые уже занимали топовые позиции на бенчмарках guardrail-моделей.
IBM добавила новые категории рисков и более детальные сигналы, что делает Guardian удобным для сложных корпоративных политик.

Granite Embedding Multilingual R2 целится в верх MTEB по нескольким метрикам:

  • компактная модель 97M параметров показывает state-of-the-art качество для своего размера;
  • большая модель нацелена на топ-чарты MTEB в своём классе.

В сумме Granite 4.1 закрывает сразу несколько сегментов:

  • LLM для текста и инструментов;
  • VLM для документов;
  • ASR и перевод речи;
  • guardrails;
  • многоязычные эмбеддинги.

Это не одна «супермодель», а набор специализированных кирпичей для сборки корпоративных AI-систем от RAG до голосовых ассистентов и документооборота.


Читайте также