Дата публикации
ai_products

K2‑18: как превратить учебник в граф знаний, с которым удобно работать LLM

Меня зовут Аскольд Романов, я руковожу продуктовой командой в «Яндекс Образовании» и занимаюсь внедрением AI‑подходов в учебные продукты. Из этой работы вырос K2‑18 — опенсорс‑инструмент, который превращает линейный учебный текст в семантический граф знаний с образовательными метриками.

Название — от экзопланеты K2‑18, в атмосфере которой, предположительно, нашли водяной пар. Там астрономы вынимают скрытую структуру из наблюдений. Здесь — мы вытаскиваем структуру из текста.

K2‑18 задуман как ответ на практический вопрос: как взять обычный учебный курс и превратить его в структуру, с которой крупная языковая модель сможет осмысленно работать — строить сценарии обучения, помогать с навигацией и персональными траекториями.

Автор проекта закончил ВМиК МГУ и аспирантуру по компьютерной лингвистике, и сейчас, когда LLM уверенно читают текст и понимают контекст, стало возможным собрать этот опыт в системный инструмент.

Что нового

K2‑18 решает сразу несколько задач, которые обычно закрывают разрозненными скриптами и ручной разметкой:

  1. Автоматическое извлечение структуры из учебного текста
    K2‑18 берёт линейный текст курса и строит из него граф:

    • вершины — понятия, факты, термины, разделы;
    • рёбра — логические и содержательные связи между ними (зависимости «что нужно знать до», тематическая близость и т.п.).
  2. Привязка образовательных метрик к графу
    Инструмент не просто строит граф, но и «подвешивает» к узлам и связям параметры, важные для обучения:

    • сложность фрагмента;
    • предпосылки (какие темы надо знать раньше);
    • потенциальная полезность для разных задач (подготовка к экзамену, повторение, углубление).
  3. Фокус на учебных курсах, а не на произвольных текстах
    Многие пайплайны knowledge extraction работают с научными статьями или веб‑страницами. K2‑18 специально заточен под учебный контент:

    • учитывает структуру учебников и курсов;
    • ориентируется на прогресс студента и работу преподавателя;
    • помогает строить сценарии обучения, а не только поиск по знаниям.
  4. Опенсорс‑подход
    Проект открыт: можно посмотреть, как устроен пайплайн, адаптировать его под свои курсы, встроить в собственную систему обучения.

  5. LLM‑ориентированная структура
    Главная цель — сделать такой формат знаний, с которым крупная языковая модель:

    • меньше «галлюцинирует», потому что опирается на чётко определённые узлы графа;
    • лучше понимает, что студент уже прошёл, а что ещё нет;
    • может строить осмысленные рекомендации и вопросы, а не только отвечать по контексту.

Цифровых бенчмарков по скорости или качеству в исходном материале нет, но K2‑18 позиционируется как практический инструмент для продакшн‑задач в образовании, а не как исследовательский прототип «для статьи».

Как это работает

K2‑18 — это knowledge‑extraction‑пайплайн над учебным текстом. Упрощённо его работа выглядит так:

  1. Вход: линейный учебный контент
    На вход подаются:

    • главы и разделы учебника;
    • лекции курса;
    • методички и вспомогательные материалы.
  2. Лингвистическая и структурная разметка
    Сначала текст приводится к удобному для анализа виду:

    • разбивка на абзацы, предложения, фрагменты;
    • базовая лингвистическая обработка (части речи, синтаксис, ключевые сущности);
    • учёт уже существующей структуры: заголовки, подзаголовки, списки.
  3. Извлечение сущностей и понятий
    Далее пайплайн выделяет:

    • ключевые термины и определения;
    • важные факты и утверждения;
    • более крупные концепты, которые объединяют несколько фрагментов.

    На этом этапе активно используются крупные языковые модели: они помогают понять, какие фрагменты текста действительно несут учебный смысл, а какие — «обвязка».

  4. Построение связей
    После этого K2‑18 строит рёбра графа:

    • какие понятия логически следуют одно из другого;
    • что является предпосылкой для чего;
    • какие темы тесно связаны и часто упоминаются вместе.

    Здесь снова подключаются LLM и эвристики из компьютерной лингвистики: автор проекта много лет занимался этой областью в МГУ.

  5. Расчёт образовательных метрик
    Для каждого узла и связи система оценивает:

    • относительную сложность материала;
    • «глубину» понятия в курсе (насколько далеко оно от базовых тем);
    • возможный вклад в прогресс студента.
  6. Выход: семантический граф знаний
    Результат — граф, с которым уже можно работать:

    • визуализировать структуру курса;
    • подключать к нему LLM для диалоговых сценариев;
    • строить поверх него рекомендательные и проверочные механики.

Что это значит для вас

Для продакт‑менеджеров и методистов EdTech

K2‑18 пригодится, если вы:

  • Запускаете AI‑ассистента для студентов.
    Вместо того чтобы кормить LLM просто PDF‑ами и надеяться на RAG, вы даёте ей граф:

    • модель понимает, на каком участке курса сейчас студент;
    • может опираться на связи «что надо знать раньше»;
    • легче строит персональные подсказки и план повторения.
  • Пересобираете существующий курс.
    Граф показывает:

    • где у вас «бутылочные горлышки» сложности;
    • какие темы перегружены связями и требуют разбиения;
    • какие разделы почти не связаны с остальными и, возможно, лишние.
  • Хотите дать преподавателям инструмент навигации по своим курсам.
    Преподаватель видит не только оглавление, но и реальную сетку зависимостей:

    • проще планировать, что можно переставить местами;
    • понятно, какие блоки можно дать в виде самостоятельного модуля;
    • легче объяснить студенту, «почему мы сейчас проходим именно это».

Для разработчиков AI‑функций в образовании

K2‑18 — удобная основа, если вы:

  • строите систему тестирования, которая учитывает структуру курса.
    Можно генерировать вопросы не «из воздуха», а строго по узлам графа и их связям.

  • делаете персонализированные треки.
    По графу видно, какие темы студент уже прошёл и какие рёбра ещё не закрыты. LLM‑ассистент может предлагать следующий шаг не по оглавлению, а по реальной структуре знаний.

  • экспериментируете с автоматической разметкой курсов.
    Вместо ручной разметки в Excel — пайплайн, который сразу выдаёт структурированное представление.

Где K2‑18 не поможет

  • Если у вас хаотичный контент без учебной цели (форумные треды, случайные статьи), результат будет намного хуже, чем на курсах с продуманной структурой.
  • Если вы хотите просто RAG‑поиск по документации, чаще всего хватит классического индекса и эмбеддингов. Полный граф может оказаться избыточным.
  • Если вам нужна чисто визуальная mind‑map без серьёзной семантики, K2‑18 может оказаться «слишком тяжёлой артиллерией».

Про доступность: K2‑18 — опенсорс‑инструмент. Его можно развернуть у себя и встроить в собственную инфраструктуру. Зависимости от зарубежных веб‑сервисов зависят от того, какие LLM и сторонние API вы подключите в пайплайн. Если вы используете локальные модели или доступные в России API, VPN не потребуется. Если вы оборачиваете вокруг него, например, недоступный в России облачный сервис, придётся учитывать его ограничения.

Место на рынке

K2‑18 не пытается конкурировать с GPT‑4o, Claude или другими крупными моделями. Это не ещё одна LLM, а надстройка над учебным текстом, которая готовит для LLM структурированный «каркас» курса.

По сути, он занимает нишу между:

  • классическими системами разметки учебных материалов (где всё делается руками методистов);
  • и RAG‑подходами, которые просто режут текст на чанки и индексируют эмбеддинги.

От ручной разметки K2‑18 отличается тем, что автоматизирует большую часть работы и использует языковые модели для понимания контекста, а не только регулярные выражения и онтологии.

От «голого» RAG — тем, что создаёт осмысленный граф зависимостей, а не набор независимых фрагментов. Это особенно важно для образования, где порядок прохождения тем и их взаимосвязь критичнее, чем для обычного поиска по документации.

Цифровых сравнений по скорости или стоимости с другими инструментами автор не приводит. Фокус — на том, что K2‑18 вырос из реальной задачи «Яндекс Образования» по структурированию курсов под AI‑сценарии, а не из лабораторного эксперимента.

Зачем это всё образованию

Семантические графы знаний давно известны в академии, но для массовых онлайн‑курсов они редко становятся реальным рабочим инструментом: слишком дорого и долго размечать всё вручную.

K2‑18 предлагает практичный путь:

  • взять уже существующий учебный текст;
  • автоматически вытащить из него структуру;
  • использовать её как основу для персонализированного обучения и AI‑ассистентов.

Для студентов это означает более прозрачную картину курса и возможность двигаться в своём темпе, не теряясь в линейных страницах учебника. Для преподавателей — инструмент, который показывает, как реально устроены их курсы. Для тех, кто строит AI‑функции в образовании, — готовый слой знаний, на который можно опереть LLM, не полагаясь только на «чтение PDF‑ов».


Читайте также

K2‑18: как превратить учебник в граф знаний, с которым удобно работать LLM — VogueTech | VogueTech