Распознавание документов

Описание ИИ сервиса.
Всем привет, меня зовут Низамов Илья. Хочу рассказать вам о ИИ проекте для распознавания паспорта 1С и других документов, который позволяет извлекать структурированную информацию из сканов документов с помощью искусственного интеллекта.
Технические возможности распознавания документов.
Сервис распознавания документов 1С поддерживает работу как с облачными ИИ моделями (OpenAI, OpenRouter, GigaChat), так и полностью локально через Ollama, vLLM. Это критически важно для соблюдения закона 152-ФЗ «О персональных данных».
Архитектура ИИ сервиса.
Для распознавания сканов документов в 1С реализована двухэтапная микросервисная архитектура:
Этап 1 - YOLO Detection Service:
- Детекция полей документа с помощью обученной нейросети YOLO11
- Super Resolution - улучшение качества изображений для повышения точности распознавания
- Вырезание отдельных компонентов документа (ФИО, номер, серия, фото и т.д.)
- REST API на FastAPI для интеграции
- MinIO для хранения обработанных изображений
Этап 2 - LLM OCR Service:
- Распознавание текста с помощью vision LLM моделей (Qwen3-VL-235B)
- LangChain для оркестрации работы с различными LLM провайдерами
- Structured Output - возврат данных в строгом JSON формате
- Langfuse для мониторинга качества и отладки промптов
- Telegram бот для удобного тестирования
Технологический стек:
- Python 3.12, FastAPI, Pydantic для валидации
- PyTorch + CUDA для GPU ускорения
- Ultralytics YOLO11 для детекции объектов
- LangChain + OpenRouter/GigaChat/Ollama для LLM
- Docker Compose для оркестрации
- MinIO для объектного хранилища
Преимущества гибридного подхода распознавания документов.
Если сканы документов подаются в хорошем качестве, то достаточно только vision LLM модели. Однако в проекте распознавание паспорта 1С я использовал гибридный подход:
- Обучение YOLO для точной локализации полей документа
- Вырезание и улучшение качества отдельных компонентов
- Распознавание улучшенных фрагментов через vision LLM
Такой подход позволяет максимально повысить скорость и качество распознавания документов, работать с низкокачественными сканами, а также использовать локальные ИИ модели для соблюдения требований безопасности.
Расширяемость и доработка.
Данный сервис распознавания документов можно доработать под любой тип документов:
- Распознавание паспорта для 1С
- Водительские удостоверения
- Миграционные карты
- Первичная документация 1С (накладные, акты, счета)
- Ценники и товарные этикетки
- Любые другие формализованные документы
Интеграция с 1С.
Сервис возвращает структурированные данные в JSON формате, что позволяет легко интегрировать распознавание документов в 1С через HTTP-запросы. API предоставляет endpoints для загрузки изображений и получения распознанных данных.
Если у вас появилась задача по автоматизации работы с документами, требуется распознавание паспорта 1С или других документов, либо хотите получить демо доступ к сервису - пишите мне в telegram
На этом всё, всем удачи, пока!