Как использовать решения по поиску и управлению информацией?

Александр Саженков, руководитель отдела бизнес-аналитики компании Schneider-Electric, рассказал, как и зачем использовать решения для обработки неструктурированных данных на примере программного продукта Info(N)gen.

В настоящее время стремительно растет количество информационных источников: web-сайтов, новостных и аналитических порталов, блогов, социальных сетей и т.д., что приводит к очень большому объему данных, которые нужно эффективно обрабатывать. Поэтому в последнее время даже заговорили о новом направлении BIG Data (Большие Данные). Получение полных и качественных данных сегодня является кричически важной задачей для крупной компании, так как позволяет найти нужные сведения о ситуации на рынке, например: оперативно получать информацию о действиях конкурентов, партнеров, отслеживать макроэкономические показатели, мониторить ключевые события в различных сегментах рынка (Нефть и Газ, Электроэнергетика, Строительство и т.д.), лучше понимать события в регионах страны. Поэтому представить в настоящее время работу крупной международной компании без профессиональных решений по поиску и управлению информацией просто невозможно. Компании готовы инвестировать и покупать решения по обработке неструктурированных данных, чтобы эффективно решить все упомянутые задачи. С точки зрения процесса, работа с неструктурированными данными сводится к нескольким большим блокам (этапам):

  1. Агрегация контента из различных источников;
  2. Поиск и визуализация результатов поиска;
  3. Распространение найденной и отобранной информации пользователям.

Так что же такое Info(N)gen?

В первую очередь – это «персонализированный» агрегатор контента, или «агрегатор специально под клиента». Не секрет, что в настоящее время на рынке существует много платформ и сервисов по агрегации контента, начиная от самых простых RSS решений, заканчивая платными платформами. Среди наиболее известных решений можно отметить: Factiva, LexisNexis, M-Adaptive компании M-Brain, Scan-Interfax, Медиалогия, Интегрум, Public.ru и др. Однако в большинстве случаев, вышеупомянутые агрегаторы контента представляют собой типовые решения со стандартной классификацией тем (рубрик), отраслей. При таком подходе заказчиком приобретается продукт мониторинга СМИ, как правило, с фиксированным функционалом, и возможность «выстроить» систему именно под требования клиента отсутствуют или существуют не в полной мере. Главная особенность и преимущество Info(N)gen – это уникальная гибкость при построении системы под заказчика.

Рассмотрим более подробно эти задачи на примере вышеупомянутых трех этапов.

Этап №1. Агрегация контента из различных источников

Платформа InfoNgen имеет изначально в своем багаже тысячи, а точнее десятки тысяч уже существующих источников. Это в первую очередь он-лайн издания. Общее количество источников на сегодня превышает 70000. Широта российских источников также достаточно богата и состаляет более 4000 изданий. Как в большинстве агрегаторов новостей, все данные поступают в систему в виде RSS каналов (XML потоков), которые Info(N)gen обрабатывает каждые несколько минут.

Особое внимание автор хотел бы уделить гибкости процесса агрегации с точки зрения добавления источников. Часто, для получения более релевантной и точной информации необходимо отслеживать узкоспециализированные издания и порталы. Преимущество платформы Info(N)gen заключается в том, что по желанию заказчика в нее могут быть добавлены любые новые источники, которые необходимы клиенту. В случае Шнейдер Электрик, это все основные энергетические и электротехнические издания, специализированные порталы и сайты, IT-пресса, источники по теме промышленной автоматизации, а также специализированная пресса по ключевым сегментам рынка.

Помимо агрегации контента в формате RSS (XML потоки), платформа Info(N)gen позволяет обрабатывать входящий контент на e-mail. Эта функция заключается в том, что любое сообщение или новость может быть отправлена на специальный адрес e-mail (специальный почтовый ящик для сбора информации). Далее этот контент также обрабатывается и анализируется системой по заданным правилам, а точнее построенной под заказчика системой автоматической классификации новостей. На западе это понятие получило название «Таксономии» (англ. Taxonomies) – правило или «дерево», определяющее автоматическую классификацию и ранжирование контента.

Также возможен вариант подключения внешних агрегаторов новостей. С одной стороны, это дополнительная возможность повысить качество агрегации, но в то же время не следует забывать, что это решение имеет ряд ограничений, которые обусловлены лимитом по количеству опросов внешней поисковой системы. В данном подходе, безусловно, должен быть найден баланс между качеством и ограничениями.

В качестве источников информации, поступающей в Info(N)gen, могут также фигурировать платные подписные издания. Этот контент можно сделать доступным только заказчику (пользователям портала), т.е. этот платный контент не будет виден другим клиентам Info(N)gen. По желанию заказчика, компания EPAM Systems может добавить практически любые источники, необходимые клиенту. Таким образом, стоит отдельно отметить гибкость при решении задач агрегации контента и управления источниками.

На рисунке 1 ниже представлен процесс агрегации контента, а также все основные типы источников, из которых собирается информация:

Этап №2. Поиск и визуализация результатов поиска

Для того, чтобы эффективно решить задачу поиска информации в рамках всей компании, изначально нужно определить весь необходимый перечень тем (англ. Topics), по которым платформа Info(N)gen будет осуществлять поиск и анализ поступающей информации. Далее, по выбранным заказчиком темам (англ. Topics) выстраиваются так называемые таксономии (англ. Taxonomies), определяющие структуру (иерархию) для ранжирования информации. После того, как EPAM Systems и заказчик согласуют темы и подтемы, иными словами, будет создано «дерево» классификации для заказчика, начинается разработка лингвистических моделей.

В случае Шнейдер Электрик автором было принято решение создать пять больших и независимых тем, по которым осуществляется поиск и анализ контента:

1. Основные компании-конкуренты;
2. Основные компании-партнеры и игроки, работающие на рассматриваемом рынке (периметр деятельности Шнейдер Электрик);
3. Все интересующие продукты и системы (периметр деятельности Шнейдер Электрик);
4. Сегменты рынка;
5. География (Федеральные округа, области и основные города).

Таким образом, весь контент, который анализирует система Info(N)gen, может быть автоматически обработан по этим пяти независимым темам. Фактически речь идет о создании различных, независимых лингвистических моделей, которые описывают вышеупомянутые 5 тем.

Что позволяет такой подход? В итоге платформа Info(N)gen, анализируя входящий контент в он-лайн режиме, автоматически расставляет тэги (англ. tags) по 5 темам, осуществляет семантический анализ текстовой информации. Безусловно, нужно понимать, что создание каждой лингвистической модели –
это сложный и зачастую достаточно долгий процесс, так как систему изначально необходимо обучить. Однако, очень хорошая поддержка компании Instant Information (EPAM Systems) позволяет эффективно решать эту задачу. Автор подчеркивает, что создание лингвистических моделей по темам, необходимым клиенту, возможно только на принципе сотрудничества и взаимной работы поставщика (EPAM Systems) и заказчика (Шнейдер Электрик). В итоге можно сказать, что осуществляется «просеивание» всего входящего в систему Info(N)gen контента по необходимым заказчику признакам и условиям согласно выстроенным таксономиям с персонализированными лингвистическими моделями.

После того, как процесс построения тем и подтем завершен, поиск информации по ним может осуществляться простой навигацией, т.е. простым выбором темы в разделе Topics (Рис. 2, область №1).

Помимо навигации в разделе Topics, можно делать и стандартные запросы в поисковой строке (Рис. 2, область №2), а также создавать сохраняемые индивидуальные поисковые запросы (англ. Saved Searches, Рис. 2, область №3). Например, можно выбрать построенную тему «Hotels» (пример Шнейдер Электрик) и указать дополнительную тему «Ural Region» с условием «И». Создав такой запрос, можно получать новости по теме «Гостиницы» именно в Уральском регионе РФ. Таким образом, все построенные под заказчика темы могут быть использованы при создании поисковых запросов. Помимо «скрещивания» выбранных тем, можно создавать и простые поисковые запросы, задавая только текстовую часть: ключевое слово, словосочетание и т.д. Но и в данном случае большим преимуществом платформы Info(N)gen является возможность очень гибко настроить поиск, например:

- поиск только в заглавии (англ. «Search in Headline»);
- поиск по всему тексту (англ. «Search in Text»);
- поиск только в нескольких источниках;
- поиск за определенный интервал времени;
- поиск только по выбранной теме, которая создана под заказчика (англ. Topic);
и т.д.

Функция поиска только в ограниченном числе источников может быть реализована не только через “Saved Searches”. Для этого в системе создан специальный раздел «Favorite Sources» (Рис. 2, область №4). Задавая источники в этом разделе, можно осуществлять поиск только в этой выбранной группе, выбирая закладку «Favorites» над основной строкой поиска (Рис.2, область №2). Иными словами, можно искать информацию только в выбранном списке источников, нажав на указанную закладку, т.е. делать, например, более узкий поиск в ТОП источниках. Аналогично можно осуществить поиск, например, в подписном контенте.

Таким образом, именно гибкость при создании поиска и широкие возможности настроек отличают продукт Info(N)gen от его аналогов.

Каждый сохраненный поисковый запрос может быть сохранен, изменен, переименован, а также его могут использовать коллеги, имеющие доступ в Info(N)gen. В этом случае возможна совместная работа нескольких человек при поиске информации.

По мнению автора, особо важно отметить и дизайн портала Info(N)gen. Все найденные статьи и сообщения наглядно отображаются на экране. На Рис. 2, область №5 отображает найденные статьи, а область №6 показывает частоту и динамику упоминаний. Формат отображения новостных сообщений можно изменять при помощи настроек в области №7, например, можно:

- группировать схожие статьи (объединение в сюжет);
- отображать только название;
- отображать название и аннотацию;
- отображать метаданные (автоматически проставленные тэги по построенным темам для заказчика);
- устанавливать различный уровень релевантности.

Настройки в области №8 (Рис. 2) позволяют строить персональные графики (англ. charts) с частотой упоминаний по темам, которые выбирает пользователь. Это позволяет, например, сравнить активность в СМИ нескольких компаний или сюжетов.

Допольнительным преимуществом с точки зрения отображения и визуализации является возможность построения «облаков» (англ. Clouds). Система Info(N)gen позволяет строить как «облако слов» (англ. «Word Cloud»), так и «облако тэгов» (англ. «Tags Cloud», см. Рис. 2, область №9). Различие состоит в том, что «облако слов» строится на основе наиболее часто упоминаемых слов в контенте, а «облако тэгов» основано на результатах анализа выстоенных лингвистических моделей под заказчика. Это дает большое преимущество с точки зрения сокращения времени на поиск. Еще одним очень важным преимуществом платформы Info(N)gen является фасетный принцип при визуализации информации (см. Рис. 2, область №10).

Сама по себе идея фасетного подхода не нова, её часто называют дополнительной системой фильтров. Наиболее частое её применение можно встретить в интернет-магазинах, где покупатель сначала выбирает товар, потом производителя, а уже далее модель изделия. В случае Info(N)gen фасетная технология визуализации используется не со статическим массивом данных, как в интернет-магазине, а практически в режиме реального времени, где поток входящей информации в агрегатор постоянно меняется. Таким образом, лингвообработка и фасетная визуализация по темам заказчика осуществляется практически непрерывно при поступлении контента. Какое преимущество дает данный подход? Во-первых, это возможность быстро и наглядно увидеть весь массив результатов поиска, а во-вторых, легко и оперативно «сузить» поиск по нужному критерию («компания-конкурент», «регион», «сегмент рынка» и т.д.).

Этап №3. Распространение найденной и отобранной информации пользователям

Распространение найденной и отобранной информации возможно несколькими способами:

  • В виде созданных оповещений (англ. Alerts, см. Рис. 2, область №11). В данном случае речь идет о том, что для каждого сохраненного поискового запроса (Saved Search) может быть создано свое оповещение. Вся новая информация, которая находится системой Info(N)gen по сохраненному запросу, приходит пользователю на e-mail. В список получателей могут быть добавлены и другие сотрудники, таким образом, один созданный Alert может приходить группе пользователей. Для каждого оповещения может быть задана частота обновлений, время и дни недели, по которым будет приходить Alert.
  • В виде новостного письма (англ. Newsletter). Каждый такой новостной бюллетень можно наполнять как вручную, так и автоматически, используя «привязку» к нему поискового запроса. В этом случае происходит так называемое автонаполнение контентом. Дополнительно в каждом Newsletter можно создать различные рубрики, или, например, сделать графический логотип в названии. Иными словами, дизайн и свойства кажного новостного бюллетеня могут быть заданы индивидуально. Безусловно, как и в случае с Alerts, каждый Newsletter имеет свою группу получателей (различные e-mails).

По мнению автора, отдельным большим преимуществом продукта Info(N)gen является возможность выдачи результата поиска в виде RSS (XML потока). Это касается как созданных поисковых запросов (Saved Searches), так и новостных бюллетеней (Newsletters). Функция экспорта результатов по RSS – это наиболее удобный и универсальный способ передачи и транслирования новостной информации [4-5]. Благодаря функции RSS (RSS-Out) платформа Info(N)gen становится универсальным и легко интегрируемым звеном при объединении с другими IT-платформами заказчика.

Вывод

Очень высокая гибкость при построении поисковых запросов, возможность в полной мере «выстроить» систему именно под требования заказчика, превосходный дизайн агрегатора, а также профессиональная поддержка заказчика сотрудниками EPAM Systems – все это объясняет выбор компании Шнейдер Электрик в пользу Info(N)gen для решения задач мониторинга и анализа ситуации на рынке.