Технологиями OCR и ML сегодня никого не удивишь
О текущей ситуации на рынке интеллектуальной обработки документов (IDP) TAdviser поговорил с Ильей Петуховым, руководителем проектов по развитию AI-продуктов компании Directum.

Ключевые тренды на рынке IDP
Рынок активно развивается, и это связано как с внутренними экономическими факторами, так и глобальными технологическими тенденциями. Растет спрос на ИИ-решения. Они были на рынке давно, и в пылу тренда на интеллектуальные технологии первой областью, к которой бизнес захотел их применить, стал документооборот. Для интеллектуальной обработки документов компании ищут готовые решения с возможностью адаптации с помощью no/low-code, а некоторые — даже разрабатывают свои.
Второй фактор — максимальная автоматизация рутинных процессов. Рутина работы с документами — основное, что компании хотят автоматизировать, чтобы экономить время и исключить человеческие ошибки.
Те организации, что не могут позволить себе внедрение ИИ, используют его в облаке. Многие — главным образом средний бизнес — переходят на облачные IDP-решения, чтобы сократить затраты на инфраструктуру и ее сопровождение. Здесь соотношение цена-ценность выглядит сбалансированным. Сегодня этот сегмент рынка на этапе активного роста, развития и трансформации.
Зрелость российских IDP-решений
Зрелость можно оценить по нескольким аспектам: технологическая база, функциональность, пользовательский опыт и интеграционные возможности. Технологиями OCR и ML сегодня никого не удивишь. Уже как само собой разумеющееся воспринимается то, что отечественные решения адаптированы под российский рынок, стандарты, язык и формы документов, функционируют в рамках действующего законодательства, имеют готовые средства интеграции к российским системам и доступны с точки зрения цены.
Но что действительно стоит обсудить, так это применение технологий глубокого обучения и продвинутых алгоритмов обработки естественного языка. Не в каждом продукте есть такие инструменты, и это может быть серьезным ограничением. Другая сложность — масштабирование на большие объемы данных или в условиях высокой нагрузки. А это один из основных запросов крупных предприятий и государственного сектора.
Продукты Directum изначально разрабатывались для крупных компаний, и масштабируемость всегда была приоритетным направлением их развития. Сегодня у нас есть подтвержденные данные, что Directum RX спокойно выдерживает нагрузку в 50 тыс. одновременно работающих пользователей.
Далеко не все ИИ-решения для обработки документов можно развивать и дорабатывать самостоятельно. В основном для продуктов на отечественном рынке доступно дообучение и развитие только силами вендора, а компания-заказчик вынуждена быть от них зависимой. Чтобы упростить развитие ИИ-возможностей для своих клиентов, в последней версии Directum RX Intelligence мы добавили возможность добавлять ИИ в процесс прямо в no-code-редакторе системы.
Сферы применения IDP-решений
В первую очередь это финансовый сектор. Банки и страховые компании одними из первых начали использовать IDP для автоматизации обработки документов, связанных с кредитами: договоров, отчетов, страховых полисов. Один из популярных кейсов применения ИИ — автоматическое извлечение данных из кредитных заявок и сопутствующих документов, их анализ и принятие решения о выдаче кредита.
Государственные организации и ведомства используют ИИ для обработки документов, связанных с лицензиями, заявками на субсидии, налоговыми декларациями и другими официальными документами. Почти в любых крупных организациях применима практика подключения ИИ для обработки, классификации и маршрутизации входящих писем и запросов, поступающих в приемную. Наш недавний пример — кейс Systeme Electric, где клиент самостоятельно подключил ИИ к работе с входящими и распознаванию скан-образов.
Ритейлеры и логистические компании используют ИИ для обработки накладных, счетов-фактур и других документов, связанных с поставками и продажами. В таких кейсах эффект не заставляет себя долго ждать, можно сказать, что организация финансового архива актуальна для компании любой отрасли. К примеру, наш клиент «Татспиртпром» использует ИИ для занесения данных из сканов бумажных первичных документов.
Однако некоторые сегменты, такие как малый и средний бизнес, конструкторские и проектные бюро, а также некоммерческие организации, пока недооценивают потенциал этих технологий. Повышение осведомленности и доступность решений могут помочь им воспользоваться всеми преимуществами IDP.
Технологии в современных IDP-системах
Российские решения поддерживают различные форматы и языки, могут извлекать данные из изображений и рукописного текста, а также из машинопечатных документов (сделанных на печатной машинке), они вполне способны работать с неструктурированными документами и экземплярами разного качества.
Сегодня в IDP используется целый пласт различных технологий:
- OCR — текст извлекается из изображений документов
- Машинное обучение (ML) — для обучения моделей обработки информации
- Глубокое обучение (DL) — для анализа графиков и диаграмм
- NLP — обработка естественного языка для понимания текста
- Компьютерное зрение — для анализа графиков и диаграмм
Перспективы рынка IDP
Сейчас интеллектуальная обработка документов становится все более востребованной в корпоративном и государственном секторах. Решения для IDP будут наполняться новыми технологиями для распознавания (рукописного текста в том числе) и генерации контента. Нас ждет принятие новых законов, которые «развяжут руки» организациям, позволив им оцифровать все архивные документы.
Тренд на «цифровизацию всего» продолжится, традиционная ИИ-обработка скан-образов бумажных документов постепенно будет становиться все менее актуальной. При этом на рынке усилится роль отечественных решений, это будет связано в первую очередь со спросом в госсекторе.
Источник: TAdviser