Проекты
Конкурсные проекты

ИСПОЛЬЗОВАНИЕ СВЁРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОБРАБОТКИ, КЛАССИФИКАЦИИ И ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ СТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ


Тип участника:  Физическое лицо
Полное наименование организации/физического лица/авторского или творческого коллектива:  Токарев Александр Васильевич
В лице (для организации или авторского/творческого коллектива указывается ФИО и должность руководителя):  Половикова Ольга Николаевна к.ф.-м.н., доцент
Интернет-сайт заявителя:  www.asu.ru
Контактное лицо: ФИО:  Токарев Александр Васильевич
ФИО всех участников авторского/творческого коллектива:  Токарев Александр Васильевич
Идея и краткое описание ИТ-проекта: 

Идея проекта

Разработка системы автоматизации распознавания и обработки документов, которая использует современные технологии машинного обучения и компьютерного зрения. Основная цель проекта — улучшение эффективности и точности классификации, сегментации и распознавания данных на документах различных типов, таких как паспорта, водительские удостоверения и другие важные документы.

Краткое описание проекта

Проект включает создание комплексного конвейера обработки изображений документов с использованием нейросетей и алгоритмов компьютерного зрения. Основные этапы работы системы:

  1. Классификация документа:

    • Исходное изображение подается на вход нейросети ResNet50, которая классифицирует тип документа. Если документ успешно классифицирован, он передается на следующий этап обработки.
  2. Сегментация изображения:

    • Нейросеть YOLOv5 используется для выделения и точной сегментации изображений документов, выделяя нужные области, такие как текстовые поля, фотографии и подписи.
  3. Коррекция ориентации документа:

    • Алгоритмы поворота и преобразования Хафа корректируют ориентацию документа, чтобы текст был выровнен правильно. Дополнительно используется нейросеть YOLOv5 для определения правильного расположения ключевых меток на документе.
  4. Распознавание и обработка меток:

    • Повторное использование YOLOv5 для определения местоположений меток на изображении. Для улучшения точности некоторые метки рассчитываются алгебраически на основе других меток, таких как фотография человека.
  5. Предобработка и распознавание текста:

    • Выделенные фрагменты изображения очищаются от шумов и преобразуются для улучшения читаемости текста. OCR-модуль tesseract используется для распознавания текста на обработанных фрагментах, после чего данные проверяются на соответствие определенным форматам.
  6. Интеграция и сохранение данных:

    • Результаты сохраняются в формате CSV и передаются в корпоративную систему для дальнейшего использования. Весь процесс автоматизирует ввод данных и улучшает взаимодействие с государственными органами и клиентами.

Проект направлен на повышение производительности, точности и скорости обработки документов, что делает его полезным для применения в различных компаниях и организациях, требующих быстрой и надежной обработки документации.

Перечень решаемых задач: 

·        Разработка нейросети для классификации документов.

·        Разработка нейросети для сегментирования изображений документов конкретного типа.

·        Разработка нейросети для выделения маркеров на изображениях документов конкретного типа.

·        Создание конвейера для выделения и распознавания структурных данных из изображения документа одного типа.

Описание функциональных возможностей и элементов проекта: 

Проект по разработке системы автоматизированного распознавания и обработки документов включает следующие ключевые функциональные возможности:

    Распознавание типа документа:

        Система способна определять тип документа на основе его внешнего вида и структуры.

    Извлечение текста и данных:

        Автоматическое извлечение текстовой и числовой информации с документа.

    Проверка и верификация данных:

        Проверка достоверности и целостности извлеченных данных.

    Сохранение данных:

        Сохранение распознанных и верифицированных данных в удобном формате для дальнейшего использования.

    Интеграция с внешними системами:

        Возможность передачи данных в корпоративные или другие внешние системы.

Элементы проекта

Проект состоит из следующих ключевых элементов:

    Модуль распознавания типа документа: Определяет тип документа на основе его внешнего вида

    Модуль извлечения данных: Выполняет извлечение текстовой и числовой информации с документа.

    Модуль проверки данных: Проверяет достоверность и целостность извлеченных данных.

    Модуль сохранения данных: Отвечает за сохранение распознанных и проверенных данных в удобном формате.

    Модуль интеграции: Обеспечивает интеграцию с внешними системами для передачи данных.

Дата внедрения (в случае, если предполагается запуск проекта в эксплуатацию):  28.06.2024
Используемые платформы, средства разработки:  Python - язык программирования
PyCharm, Collab- Среда разработки
Стоимость разработки системы:  0
Средний размер ежегодных затрат на эксплуатацию:  0
Перспективы развития: 

Планируется конвейер распространить на оставшиеся 18 видов документов, включая водительские удостоверения, страховые полисы, свидетельства о регистрации транспортных средств и другие важные документы, используемые в автотранспортной отрасли. Расширение функционала системы потребует адаптации существующих моделей для работы с новыми типами документов, что включит в себя сбор и аннотирование дополнительных данных, дообучение нейронных сетей и тестирование их в реальных условиях. Кроме того, будет разработан интерфейс для интеграции новых видов документов в текущие бизнес-процессы компании. Ожидается, что это расширение повысит общую эффективность и производительность системы, обеспечив еще более высокую точность и скорость обработки документации, что приведет к дальнейшему улучшению взаимодействия с клиентами и государственными органами.

Достижение поставленных целей:  данные были приведены в порядок, распознавание первой страницы паспорта производится на  высоком уровне
Социальная значимость и/или экономическая эффективность (в зависимости от типа проекта):  экономическая эффективность - уменьшение затрат на ручной труд
Актуальность, экономическая или социальная полезность: 
  • Оптимизация процессов: Автоматизация распознавания и обработки документов позволяет значительно сократить время, затрачиваемое на ручную обработку документов сотрудниками. Это снижает операционные затраты компании и повышает её производительность.
  • Снижение ошибок: Использование системы машинного обучения для распознавания текста и данных минимизирует риск человеческих ошибок при обработке документов, что способствует экономии ресурсов и времени на исправление ошибок.
  • Масштабируемость: Возможность масштабирования системы позволяет адаптировать её под нужды компаний различных размеров и индустрий, что способствует её широкому применению и росту клиентской базы.
  • Гарантирую достоверность предоставленной в заявке информации. Подтверждаю, что организация не находится в состоянии ликвидации, банкротства, реорганизации (Только для организаций):  Да
    Презентация проекта pdf:  Загрузить
    Возврат к списку
    нет доступа к комментариям Авторизоваться