ML-пайплайн для анализа нормативных документов. 6 этапов обработки, 3 ML-модели, панель юриста. Грантовый проект.
Государственный грант на разработку AI-системы для анализа нормативно-правовых актов. Автоматическая классификация, проверка соответствия, выявление противоречий.
Юридические документы — сложный язык, вложенные ссылки, неоднозначные формулировки. Классические методы не справляются. Нужен ML-пайплайн с экспертной валидацией.
Импорт документов из различных источников. Парсинг PDF, DOCX, HTML. Нормализация структуры.
Разбиение документа на смысловые фрагменты. Сохранение контекста — заголовки, номера статей, иерархия.
Дообученный ruBERT определяет тип каждого фрагмента: требование, определение, процедура, санкция, исключение.
LLM-дистилляция тем. Каждый фрагмент получает тематические метки из управляемой таксономии.
Natural Language Inference — проверка соответствия между фрагментами разных документов. Выявление противоречий и дублирования.
Структурированный отчёт для юриста: найденные проблемы, уровень уверенности, рекомендации. Экспорт в панель.
Streamlit UI для экспертов — не замена юристу, а усиление.
Юрист видит результаты ML-разметки и может подтвердить, исправить или отклонить. Каждая правка улучшает модель.
Автоматическая проверка документа на соответствие базовым НПА. Результат — чеклист с процентом покрытия.
Классификация, NLI, панель экспертов — соберём под ваши документы.
Написать в Telegram