- Дата публикации
K2‑18: как превратить учебник в граф знаний, с которым удобно работать LLM
Меня зовут Аскольд Романов, я руковожу продуктовой командой в «Яндекс Образовании» и занимаюсь внедрением AI‑подходов в учебные продукты. Из этой работы вырос K2‑18 — опенсорс‑инструмент, который превращает линейный учебный текст в семантический граф знаний с образовательными метриками.
Название — от экзопланеты K2‑18, в атмосфере которой, предположительно, нашли водяной пар. Там астрономы вынимают скрытую структуру из наблюдений. Здесь — мы вытаскиваем структуру из текста.
K2‑18 задуман как ответ на практический вопрос: как взять обычный учебный курс и превратить его в структуру, с которой крупная языковая модель сможет осмысленно работать — строить сценарии обучения, помогать с навигацией и персональными траекториями.
Автор проекта закончил ВМиК МГУ и аспирантуру по компьютерной лингвистике, и сейчас, когда LLM уверенно читают текст и понимают контекст, стало возможным собрать этот опыт в системный инструмент.
Что нового
K2‑18 решает сразу несколько задач, которые обычно закрывают разрозненными скриптами и ручной разметкой:
-
Автоматическое извлечение структуры из учебного текста
K2‑18 берёт линейный текст курса и строит из него граф:- вершины — понятия, факты, термины, разделы;
- рёбра — логические и содержательные связи между ними (зависимости «что нужно знать до», тематическая близость и т.п.).
-
Привязка образовательных метрик к графу
Инструмент не просто строит граф, но и «подвешивает» к узлам и связям параметры, важные для обучения:- сложность фрагмента;
- предпосылки (какие темы надо знать раньше);
- потенциальная полезность для разных задач (подготовка к экзамену, повторение, углубление).
-
Фокус на учебных курсах, а не на произвольных текстах
Многие пайплайны knowledge extraction работают с научными статьями или веб‑страницами. K2‑18 специально заточен под учебный контент:- учитывает структуру учебников и курсов;
- ориентируется на прогресс студента и работу преподавателя;
- помогает строить сценарии обучения, а не только поиск по знаниям.
-
Опенсорс‑подход
Проект открыт: можно посмотреть, как устроен пайплайн, адаптировать его под свои курсы, встроить в собственную систему обучения. -
LLM‑ориентированная структура
Главная цель — сделать такой формат знаний, с которым крупная языковая модель:- меньше «галлюцинирует», потому что опирается на чётко определённые узлы графа;
- лучше понимает, что студент уже прошёл, а что ещё нет;
- может строить осмысленные рекомендации и вопросы, а не только отвечать по контексту.
Цифровых бенчмарков по скорости или качеству в исходном материале нет, но K2‑18 позиционируется как практический инструмент для продакшн‑задач в образовании, а не как исследовательский прототип «для статьи».
Как это работает
K2‑18 — это knowledge‑extraction‑пайплайн над учебным текстом. Упрощённо его работа выглядит так:
-
Вход: линейный учебный контент
На вход подаются:- главы и разделы учебника;
- лекции курса;
- методички и вспомогательные материалы.
-
Лингвистическая и структурная разметка
Сначала текст приводится к удобному для анализа виду:- разбивка на абзацы, предложения, фрагменты;
- базовая лингвистическая обработка (части речи, синтаксис, ключевые сущности);
- учёт уже существующей структуры: заголовки, подзаголовки, списки.
-
Извлечение сущностей и понятий
Далее пайплайн выделяет:- ключевые термины и определения;
- важные факты и утверждения;
- более крупные концепты, которые объединяют несколько фрагментов.
На этом этапе активно используются крупные языковые модели: они помогают понять, какие фрагменты текста действительно несут учебный смысл, а какие — «обвязка».
-
Построение связей
После этого K2‑18 строит рёбра графа:- какие понятия логически следуют одно из другого;
- что является предпосылкой для чего;
- какие темы тесно связаны и часто упоминаются вместе.
Здесь снова подключаются LLM и эвристики из компьютерной лингвистики: автор проекта много лет занимался этой областью в МГУ.
-
Расчёт образовательных метрик
Для каждого узла и связи система оценивает:- относительную сложность материала;
- «глубину» понятия в курсе (насколько далеко оно от базовых тем);
- возможный вклад в прогресс студента.
-
Выход: семантический граф знаний
Результат — граф, с которым уже можно работать:- визуализировать структуру курса;
- подключать к нему LLM для диалоговых сценариев;
- строить поверх него рекомендательные и проверочные механики.
Что это значит для вас
Для продакт‑менеджеров и методистов EdTech
K2‑18 пригодится, если вы:
-
Запускаете AI‑ассистента для студентов.
Вместо того чтобы кормить LLM просто PDF‑ами и надеяться на RAG, вы даёте ей граф:- модель понимает, на каком участке курса сейчас студент;
- может опираться на связи «что надо знать раньше»;
- легче строит персональные подсказки и план повторения.
-
Пересобираете существующий курс.
Граф показывает:- где у вас «бутылочные горлышки» сложности;
- какие темы перегружены связями и требуют разбиения;
- какие разделы почти не связаны с остальными и, возможно, лишние.
-
Хотите дать преподавателям инструмент навигации по своим курсам.
Преподаватель видит не только оглавление, но и реальную сетку зависимостей:- проще планировать, что можно переставить местами;
- понятно, какие блоки можно дать в виде самостоятельного модуля;
- легче объяснить студенту, «почему мы сейчас проходим именно это».
Для разработчиков AI‑функций в образовании
K2‑18 — удобная основа, если вы:
-
строите систему тестирования, которая учитывает структуру курса.
Можно генерировать вопросы не «из воздуха», а строго по узлам графа и их связям. -
делаете персонализированные треки.
По графу видно, какие темы студент уже прошёл и какие рёбра ещё не закрыты. LLM‑ассистент может предлагать следующий шаг не по оглавлению, а по реальной структуре знаний. -
экспериментируете с автоматической разметкой курсов.
Вместо ручной разметки в Excel — пайплайн, который сразу выдаёт структурированное представление.
Где K2‑18 не поможет
- Если у вас хаотичный контент без учебной цели (форумные треды, случайные статьи), результат будет намного хуже, чем на курсах с продуманной структурой.
- Если вы хотите просто RAG‑поиск по документации, чаще всего хватит классического индекса и эмбеддингов. Полный граф может оказаться избыточным.
- Если вам нужна чисто визуальная mind‑map без серьёзной семантики, K2‑18 может оказаться «слишком тяжёлой артиллерией».
Про доступность: K2‑18 — опенсорс‑инструмент. Его можно развернуть у себя и встроить в собственную инфраструктуру. Зависимости от зарубежных веб‑сервисов зависят от того, какие LLM и сторонние API вы подключите в пайплайн. Если вы используете локальные модели или доступные в России API, VPN не потребуется. Если вы оборачиваете вокруг него, например, недоступный в России облачный сервис, придётся учитывать его ограничения.
Место на рынке
K2‑18 не пытается конкурировать с GPT‑4o, Claude или другими крупными моделями. Это не ещё одна LLM, а надстройка над учебным текстом, которая готовит для LLM структурированный «каркас» курса.
По сути, он занимает нишу между:
- классическими системами разметки учебных материалов (где всё делается руками методистов);
- и RAG‑подходами, которые просто режут текст на чанки и индексируют эмбеддинги.
От ручной разметки K2‑18 отличается тем, что автоматизирует большую часть работы и использует языковые модели для понимания контекста, а не только регулярные выражения и онтологии.
От «голого» RAG — тем, что создаёт осмысленный граф зависимостей, а не набор независимых фрагментов. Это особенно важно для образования, где порядок прохождения тем и их взаимосвязь критичнее, чем для обычного поиска по документации.
Цифровых сравнений по скорости или стоимости с другими инструментами автор не приводит. Фокус — на том, что K2‑18 вырос из реальной задачи «Яндекс Образования» по структурированию курсов под AI‑сценарии, а не из лабораторного эксперимента.
Зачем это всё образованию
Семантические графы знаний давно известны в академии, но для массовых онлайн‑курсов они редко становятся реальным рабочим инструментом: слишком дорого и долго размечать всё вручную.
K2‑18 предлагает практичный путь:
- взять уже существующий учебный текст;
- автоматически вытащить из него структуру;
- использовать её как основу для персонализированного обучения и AI‑ассистентов.
Для студентов это означает более прозрачную картину курса и возможность двигаться в своём темпе, не теряясь в линейных страницах учебника. Для преподавателей — инструмент, который показывает, как реально устроены их курсы. Для тех, кто строит AI‑функции в образовании, — готовый слой знаний, на который можно опереть LLM, не полагаясь только на «чтение PDF‑ов».