Mathstral: математический ИИ от Mistral для сложных задач и олимпиад — VogueTech

Что появилось / что изменилось

Mistral представила Mathstral — специальную версию Mistral 7B, заточенную под математику и STEM-задачи с многошаговым выводом.

Главные цифры:

Размер: 7B параметров (тот же класс, что Mistral 7B).
Бенчмарк MATH: 56,6% из коробки.
Бенчмарк MMLU: 63,47% в среднем по предметам.
При использовании majority voting (несколько прогонов и выбор лучшего ответа) на MATH результат растёт до 68,37%.
При выборе ответа среди 64 вариантов с помощью сильной reward-модели результат на MATH доходит до 74,59%.

Mathstral — это уже инструкционная версия. Её можно использовать как обычный чат-ассистент для задач по математике и технике или дообучать под свои сценарии.

Весы модели лежат на HuggingFace. Mistral предлагает два базовых инструмента:

mistral-inference — для запуска и интеграции в продукты.
mistral-finetune — для дообучения под конкретные задачи.

Проект создан в рамках сотрудничества с академическим Project Numina. Для оценки использовали, среди прочего, задачи GRE Math Subject Test, которые собрал профессор Пол Бурдон.

Как это работает

Mathstral опирается на архитектуру Mistral 7B, но обучена с фокусом на STEM-дисциплины и задачах, где важен пошаговый логический вывод.

Ключевые моменты под капотом:

Базовая архитектура — компактная трансформер-модель на 7B параметров, оптимизированная под скорость и инференс на доступном железе.
Специализированный датасет: много задач по математике, физике и смежным наукам, включая олимпиадного уровня задачи из набора MATH и другие академические источники.
Инструкционное обучение: модель привыкли к формату «вопрос–пошаговое решение–ответ», поэтому она не просто выдаёт результат, а строит цепочку рассуждений.
Поддержка inference-time улучшений: можно запускать несколько решений, голосовать за лучший ответ (majority voting) или подключать внешнюю reward-модель, которая выбирает наиболее корректный вариант среди десятков кандидатов.

По сути, Mistral показала, что из относительно небольшой модели можно выжать высокие результаты, если сузить домен и оптимизировать под конкретный тип задач.

Что это значит для вас

Кому Mathstral реально полезен:

Студентам и школьникам олимпиадного уровня. Модель хорошо справляется с задачами из MATH и GRE Math Subject Test. Можно использовать как «репетитора» для разбора сложных задач, особенно если включать пошаговые объяснения.
Исследователям и преподавателям. Удобно генерировать варианты задач, проверять решения, создавать разборы и тесты по математике и другим STEM-предметам.
Разработчикам edtech-сервисов. Mathstral можно встроить в обучающие платформы, калькуляторы, системы проверки решений. 7B параметров — разумный компромисс между качеством и требованиями к железу.
Командам, которым нужны локальные или кастомные решения. Поскольку весы лежат на HuggingFace, вы можете развернуть Mathstral на своих серверах и дообучить под корпоративные задачи, экзамены или внутренние форматы задач.

Где Mathstral пригодится хуже:

Общий чат-ассистент «на все случаи жизни». Она заточена под STEM, а не под светскую беседу, креатив и длинные деловые переписки.
Задачи, где важен свежий интернет-контент. Mathstral — офлайн-модель, она не ходит в сеть и не знает последних новостей.
Применения, где критична стопроцентная точность без человеческой проверки. Как и другие LLM, Mathstral иногда ошибается, особенно в нетипичных задачах. Для экзаменов и научных статей проверка человеком обязательна.

Доступность: модель размещена на HuggingFace. Формально доступ к HuggingFace из России может требовать VPN или обходных путей, это зависит от вашего провайдера и корпоративной политики. Для коммерческого использования нужно внимательно прочитать лицензию Mistral и условия HuggingFace.

Место на рынке

Mathstral играет в сегменте специализированных STEM-моделей среднего размера.

По качеству:

На бенчмарке MATH результат 56,6% уже сопоставим с более крупными моделями прошлого поколения. С включённым majority voting и reward-моделью (74,59% на MATH) Mathstral за счёт дополнительного времени инференса приближается к уровню тяжёлых закрытых моделей, но это уже другая ценой — вычислительной.
На MMLU модель набирает 63,47%. Это заметно выше типичных «универсальных» 7B-моделей прошлого года, но ниже топовых гигантов вроде GPT-4o или Claude 3 Opus, которые стоят дороже и требуют доступ к облаку.

По ресурсам:

7B — это на порядок легче, чем гиганты уровня GPT-4o или Claude 3 Opus. Mathstral можно запускать на мощном десктопе или одном-двух GPU в сервере, что снижает стоимость владения по сравнению с постоянным обращением к облачным API.
С другой стороны, если вы начнёте активно использовать majority voting и отбор из 64 кандидатов, вычислительная цена резко вырастет. В этом режиме Mathstral всё ещё дешевле, чем постоянно дёргать GPT-4o в облаке, но разница уже не такая радикальная.

По позиционированию:

В отличие от универсальных моделей вроде GPT-4o или Claude 3 Sonnet, Mathstral честно играет в нише: математика и STEM. Для продакшн-систем, где нужны и хорошие математические навыки, и сильный общий язык, всё равно имеет смысл комбинировать её с более широкими ассистентами.
На фоне других открытых 7B-моделей Mathstral интересна именно фокусом на задачах с многошаговым выводом и официальной поддержкой от Mistral через mistral-inference и mistral-finetune.

Если вы строите продукт вокруг сложной математики или академических задач, Mathstral сейчас один из самых разумных кандидатов в классе «можно развернуть у себя и не разориться на железе».