Авторизация
Забыли пароль?
Сброс пароля
Вернуться к авторизации

Извлечение информации из документов и счетов для стартапа

03 апреля ‘25

Заказчик: Стартап

Мы заменили ручной ввод данных из счетов на AI-решение, которое автоматически распознает документы и загружает информацию в ERP.

Агентство-исполнитель кейса

Эпоха Восемь (Epoch8)

Epoch8 внедряет AI-решения, которые автоматизируют рутинные процессы и экономят ресурсы.

1. Вводная задача от заказчика, проблематика, цели

К нам обратился стартап, который хотел автоматизировать бизнес-процессы, связанные с разбором бумажной документации. Особенно это касалось ручного разбора оплаченных счетов и инвойсов.

Скан-копии документов поступали на специальную почту, откуда данные (номер счёта, дата оплаты и другие реквизиты) вручную переносились в ERP-систему. Этот процесс отнимал слишком много времени и ресурсов, особенно при большом потоке входящих документов.

Перед нами стояла задача: разработать систему, которая сможет с высокой точностью извлекать информацию с бумажных счетов автоматически.

2. Описание реализации кейса и творческого пути по поиску оптимального решения

Мы выстроили пайплайн обработки данных на основе технологий компьютерного зрения и машинного обучения. В основе всей архитектуры лежит Datapipe – наш инструмент для построения ETL-процессов с отслеживанием изменений и автоматическим перерасчетом только нужных этапов, облегчая процесс дообучения моделей на новых данных.

Система устроена следующим образом:

  • 1. Сбор данных.
  • Когда на почту поступает скан счета, он автоматически попадает в Label Studio, интерфейс для работы модератора. Здесь на экране отображается исходное изображение счета, которое затем передается на обработку моделями нашей системы.
  • 2. Детекция документа.
  • Сначала модель YOLOv5 определяет сам счёт на изображении, исключая лишние объекты вроде рук, стола и постороннего фона. Мы обучили модель учитывать повороты изображений (0°, 90°, 180°, 270°) и точно определять границы документа.
  • 3. Детекция ключевых полей.
  • После выделения счёта изображение разбивается на кропы – мелкие участки, с которыми проще работать. На каждом кропе YOLOv5 ищет ключевые поля: даты, суммы, названия товаров и другие. Затем система объединяет результаты, чтобы сформировать полную картину распознанных полей на всем счете.
  • 4. Распознавание текста и чисел.
  • Каждая выделенная область, найденная на предыдущих шагах, передается в Google Cloud Vision OCR. Этот сервис анализирует изображение и извлекает текстовые данные: суммы, названия товаров, номера инвойсов и другие важные детали.
  • Google Cloud Vision OCR хорошо справляется с распознаванием текста даже на сложных фонах и в различных шрифтах, гарантируя высокую точность и полноту извлечения информации. После чего система связывает полученные текстовые и числовые значения с соответствующими полями на счете.

Дообучение моделей

Система распознавания информации со счетов сталкивается с постоянными изменениями: появляются новые форматы, меняются шрифты, добавляются поля, регулярно обновляется дизайн. Чтобы модель сохраняла высокую точность и эффективно адаптировалась к этим изменениям, её необходимо регулярно дообучать.

Мы передали заказчику не просто обученную модель, а полноценный пайплайн – автоматизированную систему дообучения на основе новых размеченных данных. Это позволяет модели непрерывно адаптироваться к меняющимся условиям и повышать качество распознавания.

По мере накопления новой разметки Datapipe добавляет эти данные в пайплайн, фиксирует обновлённый датасет и запускает переобучение только там, где это действительно необходимо.

Мониторинг качества.

Мы отслеживаем точность распознавания на каждом цикле обучения, используя метрики качества:

  • Precision/Recall - чтобы понимать точность и полноту;
  • F1-score (macro, weighted) - для оценки стабильности работы по всем классам.

Для визуализации и отслеживания показателей мы используем Metabase, где видим метрики в реальном времени и можем оперативно реагировать на негативные изменения.

Пайплайн обработки документов

1. Сбор данных

2. Детекция документа

3. Результаты сотрудничества

Мы построили надёжную систему, которая:

  • Обрабатывает сканы счетов, поступающие на почту.
  • Находит сам документ и ключевые поля.
  • Распознаёт текстовую и числовую информацию.
  • Передаёт готовую информацию в ERP.
  • Обновляется и дообучается на новых данных.

3. Детекция ключевых полей

4. Распознавание текста и чисел

4. Заключение

Таким образом, наша команда успешно разработала AI-систему для автоматического распознавания информации с бумажных счетов, используя технологии машинного обучения и компьютерного зрения. Система с высокой точностью извлекает всю необходимую информацию из документов, а также адаптируется под новые форматы и требования, благодаря непрерывному дообучению моделей.

Агентство-исполнитель кейса

Эпоха Восемь (Epoch8)

Epoch8 внедряет AI-решения, которые автоматизируют рутинные процессы и экономят ресурсы.