ML-пайплайн Грант «Старт» 3 ML-модели

AI для анализа документов

ML-пайплайн для анализа нормативных документов. 6 этапов обработки, 3 ML-модели, панель юриста. Грантовый проект.

Грант «Старт»

Задача

Государственный грант на разработку AI-системы для анализа нормативно-правовых актов. Автоматическая классификация, проверка соответствия, выявление противоречий.

Вызов

Юридические документы — сложный язык, вложенные ссылки, неоднозначные формулировки. Классические методы не справляются. Нужен ML-пайплайн с экспертной валидацией.

Pipeline: 6 шагов

Загрузка

Импорт документов из различных источников. Парсинг PDF, DOCX, HTML. Нормализация структуры.

Фрагментация

Разбиение документа на смысловые фрагменты. Сохранение контекста — заголовки, номера статей, иерархия.

Классификация ruBERT

Дообученный ruBERT определяет тип каждого фрагмента: требование, определение, процедура, санкция, исключение.

Тематический анализ

LLM-дистилляция тем. Каждый фрагмент получает тематические метки из управляемой таксономии.

NLI проверка

Natural Language Inference — проверка соответствия между фрагментами разных документов. Выявление противоречий и дублирования.

Отчёт

Структурированный отчёт для юриста: найденные проблемы, уровень уверенности, рекомендации. Экспорт в панель.

Панель юриста

Streamlit UI для экспертов — не замена юристу, а усиление.

Аннотация

Юрист видит результаты ML-разметки и может подтвердить, исправить или отклонить. Каждая правка улучшает модель.

Compliance-чек

Автоматическая проверка документа на соответствие базовым НПА. Результат — чеклист с процентом покрытия.