Главная / Кейсы / ML-pipeline
Грант «Старт» ML-pipeline NLP

AI читает закон
за юриста

ML-pipeline из 6 шагов анализирует нормативно-правовые акты. Находит несоответствия, выделяет ключевые фрагменты, готовит резюме. Юрист проверяет — не ищет.

6
шагов
в pipeline
3
модели
ruBERT
40+
документов
обработано
30
тем
анализа

Грант «Старт»

Проект поддержан Фондом содействия инновациям — государственным фондом, который финансирует научно-технические разработки.

Фонд

Фонд содействия инновациям

Один из крупнейших государственных фондов поддержки научно-технических проектов. Программа «Старт» — для проектов с высоким инновационным потенциалом.

Задача

Анализ нормативных актов

Автоматический анализ положений о закупках на соответствие законодательству. Десятки документов, сотни страниц, тысячи пунктов — вручную невозможно.

Pipeline: 6 шагов

Не один промпт в ChatGPT. Шесть специализированных моделей, каждая делает своё дело.

1

Фрагментация

Документ разбивается на смысловые фрагменты: статьи, пункты, абзацы. ruBERT определяет границы.

ruBERT #1
2

Классификация

Каждый фрагмент получает тему из 30 категорий: ценообразование, комиссии, сроки, единственный поставщик...

ruBERT #2
3

Сопоставление

NLI-модель сравнивает фрагмент документа с нормой закона: соответствует, частично, не соответствует.

ruBERT #3 (NLI)
4

Ключевые слова

Извлечение юридических терминов и ссылок на статьи закона для навигации.

NLP
5

RAG-контекст

Векторный поиск по базе законодательства. Находит релевантные нормы для каждого фрагмента.

Qdrant Embeddings
6

Резюме

LLM генерирует человекочитаемое резюме: что не так, где именно, что говорит закон.

DeepSeek GigaChat

ruBERT фильтрует — LLM объясняет.

Без ruBERT пришлось бы отправлять каждый фрагмент в LLM — тысячи запросов, огромные затраты. ruBERT отсеивает «всё ОК» и передаёт в LLM только проблемные места.

Панель для юриста

AI не заменяет юриста. AI делает черновую работу — юрист проверяет и принимает решение.

📄

Фрагментная разметка

Юрист видит полный текст документа, выделяет фрагменты мышкой, привязывает темы. Несколько меток на один фрагмент. Как Label Studio, но для юридических документов.

🔍

Версионирование

Каждая разметка сохраняется с версией. Можно откатить, сравнить, посмотреть историю. Юрист не боится ошибиться — всё обратимо.

📊

Прогресс и статистика

Дашборд: сколько документов обработано, сколько фрагментов размечено, распределение по темам. Руководитель видит прогресс команды.

⬆️

Загрузка документов

Юрист загружает .docx через веб-интерфейс. Документ автоматически разбивается на параграфы, сохраняет структуру и нумерацию.

Почему не один промпт

Наивный подход

«Загрузи в ChatGPT»

  • Документ не влезает в контекст
  • Галлюцинации в юридических терминах
  • Нет воспроизводимости — каждый раз разный ответ
  • 1000 запросов к API = огромные затраты
ML-pipeline

Специализированные модели

  • ruBERT обучен на русском юридическом тексте
  • Каждая модель — одна задача, высокая точность
  • Воспроизводимость: один вход = один выход
  • LLM только для резюме — экономия в 100 раз

Есть задача для ML-pipeline?

Документы, классификация, анализ текстов — расскажите задачу, предложу архитектуру.

otinoff@gmail.com · +7 951 584-10-83