Поиск электронных документов — как найти «иголку» в объеме данных корпоративных систем
«Кто владеет информацией — тот правит миром» — в век информационных технологий это выражение особенно актуально, правда недостаточно просто владеть большими объемами данных, нужно их правильно использовать и уметь это делать. Чтобы принимать решения, руководитель должен оперативно получать доступ к фактам о хозяйственной жизни предприятия, для заключения договора юристу необходимо погрузиться в историю взаимодействия с контрагентом, подготовка к налоговой проверке не должна парализовать на месяц бухгалтерию.
Особенности поиска документов в информационных системах
Поиск электронных документов в СЭД — базовая функция любой современной системы. В зависимости от объекта, механизм поиска можно разделить на два основных типа: атрибутивный и полнотекстовый. В первом случае поиск документов ведется по реквизитам и содержанию полей регистрационно-контрольной карточки, во втором — поиск происходит по именам документов и содержимому самого документа.
Однако по мере развития технологий и изменения привычек пользователей меняется и поиск — и алгоритм и способ поиска. Семантический поиск документов и данных — новая ступень в этом вопросе. Технология контекстного анализа запроса пользователя, когда система подбирает документы по смыслу всей фразы целиком, а не отдельного слова.
В чем сложности организации корпоративного поиска?
Корпоративная система заточена на ускорение процесса согласования, повышение его прозрачности и контролируемости, хранение и структурирование данных о документах. Поиск документов не относится к её приоритетным задачам, поэтому базовые механизмы таких систем не всегда помогают достаточно быстро находить нужную информацию.
Проблемы с информацией:
- Огромные объемы данных накапливаются за годы использования информационной системы. Если сотрудник не смог найти документ, велика вероятность, что он создаст дубль.
- Документы не релевантны. При их занесении возникают ошибки, опечатки. Кроме того, со временем меняются процессы, используемая в документах терминология.
Технические сложности:
- Неэффективный поиск. Встроенный механизмы поиска документов «выдают» большое количество результатов, которые не всегда представлены в удобной форме. Сотрудник вынужден тратить много времени на просмотр и отбор нужных сведений.
- Сложно формировать запрос. В отличие от интернета, системы не умеют подбирать дополнительные параметры поиска. Пользователю требуется указать множество параметров и точно указать искомое слово: использовать правильную раскладку и не допускать орфографических ошибок.
- Нет «единого окна» для запросов. Часто на предприятии используется комплекс систем, в таком случае сотрудникам нужен механизм сквозного поиска, который обращается ко всем доступным источникам.
- Выдача прав на документы. По правилам хранения документов доступ к архивному фонду ограничен, поэтому требуется удобный механизм, который разрешит вопросы о том, какие документы должны отображаться в поисковой строке и в каком объеме.
Умный поиск электронных документов
Поиск документов должен быть быстрым, интуитивно понятным и удобным для пользователя. Используются механизмы, которые самостоятельно обучаются, находят связи между данными и классифицируют их, формируют семантические поля.
- Современный интерфейс — интуитивно понятный, доступный для освоения каждым пользователем. Удобная работа с фильтрами и категориями для пользователя — помогает быстро сузить выборку в несколько кликов.
- Строка поиска — возможность ввести запрос на естественном языке c использованием подсказок по истории запросов пользователя и наименованиям общедоступных документов.
- Интеллектуальная обработка запроса для быстрого сужения выборки результатов: исправление опечаток, раскладки, умный выбор категорий, фильтров автоматически, например, по датам создания, изменения, видам документов. Например, из слов «Договоры с ООО «Лунагрунт» система поймет, какой необходим тип документа и заполнит значение реквизита «Контрагент».
- Иногда требуется «поискать точно то, что ввел пользователь». Интеллектуальный разбор легко отключается ДО или ПОСЛЕ обработки запроса.
- Для расширения выдачи результатов используется поиск по неполному вхождению запроса (в текст документа), например, только по двум словам из введенных трех. При этом, документы «с полным вхождением» (т.е. содержащие все три слова) будут отображаться выше в списке результатов.
- Информативный сниппет в результатах— выдержка текста документа с подсветкой найденных слов. Сокращается время на предпросмотр документов
- Возможность поделиться результатами — скопировать URL (адрес странички с результатами поиска из адресной строки браузера).
Одно из таких готовых решений — Directum Smart Search, который представляет собой сайт поиска. Пользователь может вводить запрос на естественном языке, при этом сайт предлагает подсказку с предыдущими поисковыми запросами и подходящими наименованиями общедоступных документов. Для семантического анализа запросов и извлечения фактов из текстов документов в решении используются интеллектуальные сервисы Ario. Решение обеспечивает качественный полнотекстовый поиск с учетом словоформ и синонимов, определяет опечатки и неправильную раскладку клавиатуры.
С умным поиском проще подготовиться к проверкам — достаточно одного запроса и настроенных параметров фильтрации. Семантический анализ запроса, извлечение данных из документов и сопоставление запросу берут на себя интеллектуальные сервисы. Требуемые документы легко выгружается и так же легко формируется отчет. Например, экономист может ввести запрос «счета по строительным материалам за текущее полугодие», и получит список счетов, в карточках и тексте которых упоминаются «гвозди», «цемент», «строительные материалы». То есть будут учтены синонимы и контекстное значение запрошенных фраз.
Такой поиск уже применяются в работе компаний и благодаря богатой функциональности он превращается в полноценный инструмент для решения практических задач.