Информационные системы "Галактика"

Компания «Топ Софт» протестировала технологии веб-аналитики от Yandex

«Топ Софт» протестировала технологии веб-аналитики от Yandex

Компания «Топ Софт» протестировала возможность использования для анализа экономической деятельности предприятий технологии веб-аналитики от Yandex.

 

Проблема

Ключевым ресурсом бизнеса сегодня стало время. А способность компании к быстрым решениям и действиям позволяет увеличивать ее прибыль, а также воспринимаемую ценность ее продуктов потребителями.

Так, согласно исследованию McKinsey, если товар попадает на рынок с шестимесячным отставанием от графика, компания теряет 36% прибыли, потенциально возможной за период жизни этого товара. А, по оценкам аналитиков Gartner, к 2018 году около 50% случаев неэффективного использования ресурсов, репутационных издержек, правовых санкций и т.п. будут связаны с неспособностью компаний правильно обращаться с большими объемами данных и инструментами их анализа.

Другими словами, фактор времени сегодня зависит не столько от людей, сколько от информационных систем. Если используемое IT-решение вынуждает компанию откладывать анализ данных на часы, дни или даже недели – соответственно откладываются и управленческие решения. А конкуренты не ждут.

Решение

Чтобы выиграть для пользователей своих бизнес-приложений часы, минуты и секунды, компания «Топ Софт» целенаправленно работает над оптимизацией программного кода собственных разработок, а также ищет наиболее быстрые и эффективные технологии сторонних компаний. Одной из последних находок проводимого компанией мониторинга IT-рынка стала система управления базами данных ClickHouse.

Первоначально компания «Яндекс» разработала СУБД ClickHouse для собственной системы веб-аналитики «Яндекс.Метрика». ClickHouse не только позволят обрабатывать огромные объемы данных (свыше двух терабайт в секунду), сохраняя отказоустойчивость – но и делает это гораздо быстрее других решений, присутствующих на мировом рынке. По словам разработчиков, администраторы больших интернет-порталов, привыкшие к тому, что сложный аналитический запрос к «Яндекс.Метрике» становится поводом для продолжительного перекура или чаепития – испытывали шок, когда обновленная система начала давать ответы на аналогичные запросы за секунды.

В минувшем году «Яндекс» выложил CliskHouse в открытый доступ. А компания «Топ Софт», используя собственный многолетний опыт и компетенции в области бизнеса-аналитики, нашла способ применить это Open Source решение веб-аналитики для анализа деятельности предприятий.

Тест

Перед началом тестирования у специалистов «Топ Софта» были сомнения: удастся ли использовать Clickhouse для решения бизнес-задач? Ведь в «Яндекс.Метрике» данные накапливаются и больше не меняются. В то время как в бизнес-приложениях данные о прошедших периодах меняются все время – и требуют постоянного пересчета.

Также было интересно изучить архитектуру ClickHouse и подходы «Яндекса» к разработке хранилищ данных, выявить достоинства и недостатки технологии, проанализировать возможность автоматизации разработки решений на ClickHouse и т.д.

Для оценки новой технологии специалисты компании «Топ Софт» создали рабочий макет хранилища данных и формирования отчетов. В хранилище было размещено 13 миллионов бухгалтерских проводок, накопленных в системе «Галактика ERP» в течение года. Эти данные использовались для расчета средствами ClickHouse оборота по счетам и потока денежных средств. Результат оказался убедительным. Если в традиционной учетной системе аналогичные задачи решаются за минуты, то в макете с использованием ClickHouse – за секунды.

Таким образом, решение позволяет бизнес-пользователю работать с отчетами в интерактивном режиме. Например, быстро переключаться с просмотра остатков средств на начало месяца – к анализу оборота в разрезе счетов-субсчетов и т.д. За короткий сеанс работы пользователь может просчитать несколько вариантов управленческого решения – и выбрать среди них оптимальный.

Выводы

Мы увидели различные возможности использования технологии ClickHouse как в системах планирования ресурсов предприятия класса ERP, так и в системах бизнес-анализа и поддержки принятия решений класса BI.

Как известно, ERP-системы используют технологию обработки данных в реальном времени OLTP (Online Transaction Processing). Однако фактически технология OLTP способна создавать в реальном времени (за секунды) только относительно простые отчеты. Чем больше требуется операций с данными – тем больше времени уходит на подготовку отчета.

Напомним: в наших тестовых задачах счет для ERP шел на минуты. А если усложнить запрос? Например, просчитать годовой баланс? Тогда системе придется включить в расчеты еще по 10–15 записей для каждой из 13 миллионов проводок. Время расчетов растянется на часы.

Очевидно, что при подготовке определенных ERP-отчетов технология ClickHouse многократно превосходит технологию OLTP, ускоряя анализ данных в одних задачах в десятки, а в других – в сотни и даже тысячи раз. Независимо от размера корпоративной базы данных, специалист предприятия может анализировать данные в интерактивном режиме: «вопрос – ответ». Включая самые свежие данные, которые только что ввели в систему его коллеги.

А обладает ли ClickHouse преимуществами по сравнению с технологией OLAP, которая используется в системах BI? Ведь OLAP тоже работает в реальном времени и позволяет решать различные аналитические задачи в десятки, сотни и тысячи раз быстрее, чем технология OLTP.

Тем не менее, мы обнаружили две ситуации, в которых ClickHouse дает выигрыш во времени по сравнению с OLAP.

Первая ситуация связана с масштабированием системы. На определенном этапе развития компании корпоративная база может вырасти настолько, что для ее хранения и обработки могут понадобиться дополнительные серверы. Но OLAP – централизованная база данных, которую достаточно сложно масштабировать. Например, добавив к имеющемуся на предприятии серверу еще два, будет очень сложно добиться трехкратного увеличения производительности системы. При сильном желании решение может быть найдено – но окажется очень дорогим и трудоемким.

В архитектуру ClickHouse изначально заложена возможность распараллеливания базы данных. Это значит, что ClickHouse позволяет легко масштабировать систему: сколько оборудования вы добавите – во столько же раз вырастет и общая производительность системы.

Вторая ситуация связана с т.н. периодом неадекватности данных. Да, OLAP позволяет анализировать большие объемы данных в интерактивном режиме – но только когда эти данные уже выгружены из системы ERP в специальное хранилище. До очередной выгрузки самые свежие данные, поступающие в ERP-систему, будут недоступны для пользователя аналитической BI-системы. И этот период неадекватности данных может составлять от часа до суток.

В ряде аналитических задач менеджеров вполне устраивает такая погрешность. Однако есть бизнес-задачи, в которых отставание от реальных событий даже на 5 минут может ухудшить качество управленческих решений. ClickHouse, благодаря распределенной структуре хранения данных, позволяет сократить период неадекватности данных до секунд. Аналитик получает возможность анализировать то, что происходит на предприятии и на рынке прямо сейчас.

На практике встречается и третья ситуация. Предприятие уже купило BI-систему. Но по тем или иным причинам пока не приобрело OLAP-сервер (например, посчитало конкретное решение слишком дорогим). В этом случае также имеет смысл подумать об использовании бесплатной Open Source базы данных ClickHouse. Компания «Топ Софт» готова по запросам предприятий-заказчиков разрабатывать интерактивные отчеты, формируемые в реальном времени.