ИСПОЛЬЗОВАНИЕ СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОБРАБОТКИ, КЛАССИФИКАЦИИ И ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ СТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ
Идея проекта
Разработка системы автоматизации распознавания и обработки документов, которая использует современные технологии машинного обучения и компьютерного зрения. Основная цель проекта — улучшение эффективности и точности классификации, сегментации и распознавания данных на документах различных типов, таких как паспорта, водительские удостоверения и другие важные документы.
Краткое описание проекта
Проект включает создание комплексного конвейера обработки изображений документов с использованием нейросетей и алгоритмов компьютерного зрения. Основные этапы работы системы:
-
Классификация документа:
- Исходное изображение подается на вход нейросети ResNet50, которая классифицирует тип документа. Если документ успешно классифицирован, он передается на следующий этап обработки.
-
Сегментация изображения:
- Нейросеть YOLOv5 используется для выделения и точной сегментации изображений документов, выделяя нужные области, такие как текстовые поля, фотографии и подписи.
-
Коррекция ориентации документа:
- Алгоритмы поворота и преобразования Хафа корректируют ориентацию документа, чтобы текст был выровнен правильно. Дополнительно используется нейросеть YOLOv5 для определения правильного расположения ключевых меток на документе.
-
Распознавание и обработка меток:
- Повторное использование YOLOv5 для определения местоположений меток на изображении. Для улучшения точности некоторые метки рассчитываются алгебраически на основе других меток, таких как фотография человека.
-
Предобработка и распознавание текста:
- Выделенные фрагменты изображения очищаются от шумов и преобразуются для улучшения читаемости текста. OCR-модуль tesseract используется для распознавания текста на обработанных фрагментах, после чего данные проверяются на соответствие определенным форматам.
-
Интеграция и сохранение данных:
- Результаты сохраняются в формате CSV и передаются в корпоративную систему для дальнейшего использования. Весь процесс автоматизирует ввод данных и улучшает взаимодействие с государственными органами и клиентами.
Проект направлен на повышение производительности, точности и скорости обработки документов, что делает его полезным для применения в различных компаниях и организациях, требующих быстрой и надежной обработки документации.
· Разработка нейросети для классификации документов.
· Разработка нейросети для сегментирования изображений документов конкретного типа.
· Разработка нейросети для выделения маркеров на изображениях документов конкретного типа.
· Создание конвейера для выделения и распознавания структурных данных из изображения документа одного типа.
Проект по разработке системы автоматизированного распознавания и обработки документов включает следующие ключевые функциональные возможности:
Распознавание типа документа:
Система способна определять тип документа на основе его внешнего вида и структуры.
Извлечение текста и данных:
Автоматическое извлечение текстовой и числовой информации с документа.
Проверка и верификация данных:
Проверка достоверности и целостности извлеченных данных.
Сохранение данных:
Сохранение распознанных и верифицированных данных в удобном формате для дальнейшего использования.
Интеграция с внешними системами:
Возможность передачи данных в корпоративные или другие внешние системы.
Элементы проекта
Проект состоит из следующих ключевых элементов:
Модуль распознавания типа документа: Определяет тип документа на основе его внешнего вида
Модуль извлечения данных: Выполняет извлечение текстовой и числовой информации с документа.
Модуль проверки данных: Проверяет достоверность и целостность извлеченных данных.
Модуль сохранения данных: Отвечает за сохранение распознанных и проверенных данных в удобном формате.
Модуль интеграции: Обеспечивает интеграцию с внешними системами для передачи данных.
PyCharm, Collab- Среда разработки
Планируется конвейер распространить на оставшиеся 18 видов документов, включая водительские удостоверения, страховые полисы, свидетельства о регистрации транспортных средств и другие важные документы, используемые в автотранспортной отрасли. Расширение функционала системы потребует адаптации существующих моделей для работы с новыми типами документов, что включит в себя сбор и аннотирование дополнительных данных, дообучение нейронных сетей и тестирование их в реальных условиях. Кроме того, будет разработан интерфейс для интеграции новых видов документов в текущие бизнес-процессы компании. Ожидается, что это расширение повысит общую эффективность и производительность системы, обеспечив еще более высокую точность и скорость обработки документации, что приведет к дальнейшему улучшению взаимодействия с клиентами и государственными органами.