Распознавание документов

ИИ сервис распознавания документов 1С, который возвращает структурированную информацию в формате JSON для автоматической интеграции с 1С и другими учетными системами.

Описание ИИ сервиса.

Всем привет, меня зовут Низамов Илья. Хочу рассказать вам о ИИ проекте для распознавания паспорта 1С и других документов, который позволяет извлекать структурированную информацию из сканов документов с помощью искусственного интеллекта.

Технические возможности распознавания документов.

Сервис распознавания документов 1С поддерживает работу как с облачными ИИ моделями (OpenAI, OpenRouter, GigaChat), так и полностью локально через Ollama, vLLM. Это критически важно для соблюдения закона 152-ФЗ «О персональных данных».

Архитектура ИИ сервиса.

Для распознавания сканов документов в 1С реализована двухэтапная микросервисная архитектура:

Этап 1 - YOLO Detection Service:

Детекция полей документа с помощью обученной нейросети YOLO11
Super Resolution - улучшение качества изображений для повышения точности распознавания
Вырезание отдельных компонентов документа (ФИО, номер, серия, фото и т.д.)
REST API на FastAPI для интеграции
MinIO для хранения обработанных изображений

Этап 2 - LLM OCR Service:

Распознавание текста с помощью vision LLM моделей (Qwen3-VL-235B)
LangChain для оркестрации работы с различными LLM провайдерами
Structured Output - возврат данных в строгом JSON формате
Langfuse для мониторинга качества и отладки промптов
Telegram бот для удобного тестирования

Технологический стек:

Python 3.12, FastAPI, Pydantic для валидации
PyTorch + CUDA для GPU ускорения
Ultralytics YOLO11 для детекции объектов
LangChain + OpenRouter/GigaChat/Ollama для LLM
Docker Compose для оркестрации
MinIO для объектного хранилища

Преимущества гибридного подхода распознавания документов.

Если сканы документов подаются в хорошем качестве, то достаточно только vision LLM модели. Однако в проекте распознавание паспорта 1С я использовал гибридный подход:

Обучение YOLO для точной локализации полей документа
Вырезание и улучшение качества отдельных компонентов
Распознавание улучшенных фрагментов через vision LLM

Такой подход позволяет максимально повысить скорость и качество распознавания документов, работать с низкокачественными сканами, а также использовать локальные ИИ модели для соблюдения требований безопасности.

Расширяемость и доработка.

Данный сервис распознавания документов можно доработать под любой тип документов:

Распознавание паспорта для 1С
Водительские удостоверения
Миграционные карты
Первичная документация 1С (накладные, акты, счета)
Ценники и товарные этикетки
Любые другие формализованные документы

Интеграция с 1С.

Сервис возвращает структурированные данные в JSON формате, что позволяет легко интегрировать распознавание документов в 1С через HTTP-запросы. API предоставляет endpoints для загрузки изображений и получения распознанных данных.

Если у вас появилась задача по автоматизации работы с документами, требуется распознавание паспорта 1С или других документов, либо хотите получить демо доступ к сервису - пишите мне в telegram

На этом всё, всем удачи, пока!