K2‑18: как превратить учебник в граф знаний, с которым удобно работать LLM — VogueTech

Меня зовут Аскольд Романов, я руковожу продуктовой командой в «Яндекс Образовании» и занимаюсь внедрением AI‑подходов в учебные продукты. Из этой работы вырос K2‑18 — опенсорс‑инструмент, который превращает линейный учебный текст в семантический граф знаний с образовательными метриками.

Название — от экзопланеты K2‑18, в атмосфере которой, предположительно, нашли водяной пар. Там астрономы вынимают скрытую структуру из наблюдений. Здесь — мы вытаскиваем структуру из текста.

K2‑18 задуман как ответ на практический вопрос: как взять обычный учебный курс и превратить его в структуру, с которой крупная языковая модель сможет осмысленно работать — строить сценарии обучения, помогать с навигацией и персональными траекториями.

Автор проекта закончил ВМиК МГУ и аспирантуру по компьютерной лингвистике, и сейчас, когда LLM уверенно читают текст и понимают контекст, стало возможным собрать этот опыт в системный инструмент.

Что нового

K2‑18 решает сразу несколько задач, которые обычно закрывают разрозненными скриптами и ручной разметкой:

Автоматическое извлечение структуры из учебного текста
K2‑18 берёт линейный текст курса и строит из него граф:
- вершины — понятия, факты, термины, разделы;
- рёбра — логические и содержательные связи между ними (зависимости «что нужно знать до», тематическая близость и т.п.).
Привязка образовательных метрик к графу
Инструмент не просто строит граф, но и «подвешивает» к узлам и связям параметры, важные для обучения:
- сложность фрагмента;
- предпосылки (какие темы надо знать раньше);
- потенциальная полезность для разных задач (подготовка к экзамену, повторение, углубление).
Фокус на учебных курсах, а не на произвольных текстах
Многие пайплайны knowledge extraction работают с научными статьями или веб‑страницами. K2‑18 специально заточен под учебный контент:
- учитывает структуру учебников и курсов;
- ориентируется на прогресс студента и работу преподавателя;
- помогает строить сценарии обучения, а не только поиск по знаниям.
Опенсорс‑подход
Проект открыт: можно посмотреть, как устроен пайплайн, адаптировать его под свои курсы, встроить в собственную систему обучения.
LLM‑ориентированная структура
Главная цель — сделать такой формат знаний, с которым крупная языковая модель:
- меньше «галлюцинирует», потому что опирается на чётко определённые узлы графа;
- лучше понимает, что студент уже прошёл, а что ещё нет;
- может строить осмысленные рекомендации и вопросы, а не только отвечать по контексту.

Цифровых бенчмарков по скорости или качеству в исходном материале нет, но K2‑18 позиционируется как практический инструмент для продакшн‑задач в образовании, а не как исследовательский прототип «для статьи».

Как это работает

K2‑18 — это knowledge‑extraction‑пайплайн над учебным текстом. Упрощённо его работа выглядит так:

Вход: линейный учебный контент
На вход подаются:
- главы и разделы учебника;
- лекции курса;
- методички и вспомогательные материалы.
Лингвистическая и структурная разметка
Сначала текст приводится к удобному для анализа виду:
- разбивка на абзацы, предложения, фрагменты;
- базовая лингвистическая обработка (части речи, синтаксис, ключевые сущности);
- учёт уже существующей структуры: заголовки, подзаголовки, списки.
Извлечение сущностей и понятий
Далее пайплайн выделяет:
- ключевые термины и определения;
- важные факты и утверждения;
- более крупные концепты, которые объединяют несколько фрагментов.
На этом этапе активно используются крупные языковые модели: они помогают понять, какие фрагменты текста действительно несут учебный смысл, а какие — «обвязка».
Построение связей
После этого K2‑18 строит рёбра графа:
- какие понятия логически следуют одно из другого;
- что является предпосылкой для чего;
- какие темы тесно связаны и часто упоминаются вместе.
Здесь снова подключаются LLM и эвристики из компьютерной лингвистики: автор проекта много лет занимался этой областью в МГУ.
Расчёт образовательных метрик
Для каждого узла и связи система оценивает:
- относительную сложность материала;
- «глубину» понятия в курсе (насколько далеко оно от базовых тем);
- возможный вклад в прогресс студента.
Выход: семантический граф знаний
Результат — граф, с которым уже можно работать:
- визуализировать структуру курса;
- подключать к нему LLM для диалоговых сценариев;
- строить поверх него рекомендательные и проверочные механики.

Что это значит для вас

Для продакт‑менеджеров и методистов EdTech

K2‑18 пригодится, если вы:

Запускаете AI‑ассистента для студентов.
Вместо того чтобы кормить LLM просто PDF‑ами и надеяться на RAG, вы даёте ей граф:
- модель понимает, на каком участке курса сейчас студент;
- может опираться на связи «что надо знать раньше»;
- легче строит персональные подсказки и план повторения.
Пересобираете существующий курс.
Граф показывает:
- где у вас «бутылочные горлышки» сложности;
- какие темы перегружены связями и требуют разбиения;
- какие разделы почти не связаны с остальными и, возможно, лишние.
Хотите дать преподавателям инструмент навигации по своим курсам.
Преподаватель видит не только оглавление, но и реальную сетку зависимостей:
- проще планировать, что можно переставить местами;
- понятно, какие блоки можно дать в виде самостоятельного модуля;
- легче объяснить студенту, «почему мы сейчас проходим именно это».

Для разработчиков AI‑функций в образовании

K2‑18 — удобная основа, если вы:

строите систему тестирования, которая учитывает структуру курса.
Можно генерировать вопросы не «из воздуха», а строго по узлам графа и их связям.
делаете персонализированные треки.
По графу видно, какие темы студент уже прошёл и какие рёбра ещё не закрыты. LLM‑ассистент может предлагать следующий шаг не по оглавлению, а по реальной структуре знаний.
экспериментируете с автоматической разметкой курсов.
Вместо ручной разметки в Excel — пайплайн, который сразу выдаёт структурированное представление.

Где K2‑18 не поможет

Если у вас хаотичный контент без учебной цели (форумные треды, случайные статьи), результат будет намного хуже, чем на курсах с продуманной структурой.
Если вы хотите просто RAG‑поиск по документации, чаще всего хватит классического индекса и эмбеддингов. Полный граф может оказаться избыточным.
Если вам нужна чисто визуальная mind‑map без серьёзной семантики, K2‑18 может оказаться «слишком тяжёлой артиллерией».

Про доступность: K2‑18 — опенсорс‑инструмент. Его можно развернуть у себя и встроить в собственную инфраструктуру. Зависимости от зарубежных веб‑сервисов зависят от того, какие LLM и сторонние API вы подключите в пайплайн. Если вы используете локальные модели или доступные в России API, VPN не потребуется. Если вы оборачиваете вокруг него, например, недоступный в России облачный сервис, придётся учитывать его ограничения.

Место на рынке

K2‑18 не пытается конкурировать с GPT‑4o, Claude или другими крупными моделями. Это не ещё одна LLM, а надстройка над учебным текстом, которая готовит для LLM структурированный «каркас» курса.

По сути, он занимает нишу между:

классическими системами разметки учебных материалов (где всё делается руками методистов);
и RAG‑подходами, которые просто режут текст на чанки и индексируют эмбеддинги.

От ручной разметки K2‑18 отличается тем, что автоматизирует большую часть работы и использует языковые модели для понимания контекста, а не только регулярные выражения и онтологии.

От «голого» RAG — тем, что создаёт осмысленный граф зависимостей, а не набор независимых фрагментов. Это особенно важно для образования, где порядок прохождения тем и их взаимосвязь критичнее, чем для обычного поиска по документации.

Цифровых сравнений по скорости или стоимости с другими инструментами автор не приводит. Фокус — на том, что K2‑18 вырос из реальной задачи «Яндекс Образования» по структурированию курсов под AI‑сценарии, а не из лабораторного эксперимента.

Зачем это всё образованию

Семантические графы знаний давно известны в академии, но для массовых онлайн‑курсов они редко становятся реальным рабочим инструментом: слишком дорого и долго размечать всё вручную.

K2‑18 предлагает практичный путь:

взять уже существующий учебный текст;
автоматически вытащить из него структуру;
использовать её как основу для персонализированного обучения и AI‑ассистентов.

Для студентов это означает более прозрачную картину курса и возможность двигаться в своём темпе, не теряясь в линейных страницах учебника. Для преподавателей — инструмент, который показывает, как реально устроены их курсы. Для тех, кто строит AI‑функции в образовании, — готовый слой знаний, на который можно опереть LLM, не полагаясь только на «чтение PDF‑ов».