Дата публикации
ai_products

Mr. Chatterbox: викторианская языковая модель, которую можно запустить на домашнем ноутбуке

Что появилось / что изменилось

Разработчик Trip Venturella выложил в открытый доступ Mr. Chatterbox — языковую модель, целиком обученную на текстах XIX века из Британской библиотеки. Это не ещё один «клон GPT», а эксперимент: что получится, если вообще не трогать современный интернет и использовать только публичное достояние.

Ключевые факты:

  • Датасет: 28 035 книг, опубликованных с 1837 по 1899 год
  • Источник: корпус Британской библиотеки
  • Объём обучения: около 2,93 млрд токенов после фильтрации
  • Архитектура: трансформер примерно уровня GPT-2 Medium
  • Размер: ~340 млн параметров
  • Вес файла: около 2,05 ГБ на диске
  • Срез знаний: только XIX век, никаких данных после 1899 года

Модель можно запустить локально и общаться с «виртуальным викторианским собеседником». Автор Simon Willison собрал для неё плагин к своему фреймворку LLM и показал, как всё поднять в пару команд.

Как это работает

Trip Venturella обучил Mr. Chatterbox «с нуля» на корпусе викторианских текстов, не подмешивая ни современную литературу, ни веб-скраппинг. Входные данные — оцифрованные книги из открытого набора Британской библиотеки. Это принципиальная этическая позиция: использовать только тексты, у которых истек срок авторского права.

Архитектурно это компактный трансформер на 340 млн параметров — примерно класс GPT-2 Medium. Для тренировки Trip использовал nanochat Андрея Карпатия — минималистичный код для обучения LLM. На выходе получилась модель с ярко выраженной викторианской «манерой речи», но без современного словаря и представлений о мире.

Simon Willison интегрировал модель в свой CLI-инструмент LLM. Плагин llm-mrchatterbox делает несколько вещей:

  1. При первом запросе скачивает веса (2,05 ГБ) с Hugging Face
  2. Запускает локальный инференс через код nanochat
  3. Даёт два режима: одиночные промпты и диалоговый чат
  4. Позволяет удалить кеш модели командой

Примеры команд:

llm install llm-mrchatterbox
llm -m mrchatterbox "Good day, sir"
llm chat -m mrchatterbox
llm mrchatterbox delete-model

Если LLM не установлен, можно стартовать через uvx:

uvx --with llm-mrchatterbox llm chat -m mrchatterbox

Что это значит для вас

Важно сразу сказать честно: Mr. Chatterbox слаб как помощник по задачам. Simon Willison описывает опыт общения как «ближе к марковской цепи, чем к полноценной LLM». Ответы стилистически красивые, но часто не отвечают на вопрос по сути.

Кому это может пригодиться:

  • Исследователям и юристам по авторскому праву. Модель показывает, что реально собрать работающую LLM только на публичном достоянии — без неясного веб-скраппинга.
  • Разработчикам, интересующимся локальными моделями. 2,05 ГБ — скромный размер: модель можно крутить на обычном настольном ПК или ноутбуке без дорогой GPU (скорость будет зависеть от железа, но запуск реален).
  • Геймдеву и авторам интерактивной прозы. Mr. Chatterbox даёт характерный викторианский стиль: удобно для прототипов NPC и экспериментов с ретро-наративом.
  • Образованию и цифровой гуманитаристике. Можно показывать студентам, как меняется поведение модели, если ограничить её только одним историческим периодом.

Где модель вряд ли поможет:

  • техническая поддержка
  • кодинг и разбор современных библиотек
  • поиск по актуальным данным, новости, аналитика
  • точные консультации по науке и бизнесу

У модели нет знаний после 1899 года. Она не понимает ни смартфоны, ни интернет, ни глобальную политику XXI века. Это осознанное ограничение, а не баг.

Доступ к Hugging Face из России может работать нестабильно. В таком случае понадобится VPN, чтобы скачать веса модели и зайти на демо в Hugging Face Spaces.

Место на рынке

По размерам Mr. Chatterbox заметно меньше многих современных моделей: всего 340 млн параметров против, например, 600 млн у самой маленькой Qwen 3.5. Семейство Qwen 3.5, по наблюдениям Willison, начинает вести себя интересно с 2 млрд параметров.

Есть ещё один ориентир — работа DeepMind Chinchilla 2022 года. Авторы предлагают эмпирическое соотношение: примерно 20 токенов обучения на один параметр модели. Для Mr. Chatterbox это означало бы около 7 млрд токенов. Сейчас у него 2,93 млрд — меньше половины от «желательного» объёма. Отсюда низкое качество ответов.

По полезности Mr. Chatterbox несопоставим с моделями уровня GPT-4o или Claude 3.5 Sonnet: он знает меньше, ошибается чаще и практически не годится для продуктивной работы. Его сильная сторона в другом: прозрачный, этически чистый датасет и возможность увидеть, как ведёт себя LLM, если кормить её исключительно исторической литературой.

Для энтузиастов локального ИИ это интересный полигон. Для тех, кому нужен рабочий ассистент «на каждый день», логичнее смотреть в сторону более крупных и современных моделей — пусть и обученных на менее прозрачных источниках.


Читайте также