Какие технологии могут повысить скорость обработки big data в ритейле

Big data позволяет ритейлерам анализировать поведение и предпочтения клиентов, делать персонализированные предложения вместо раздражающей рекламы, снижать риски, бороться с мошенничеством, автоматически корректировать цены, прогнозировать выручку и тренды, оптимизировать поставки – и, как результат, увеличивать прибыль в разы. Но как получить преимущество, если ваши конкуренты будут делать все то же самое?

На фото: Никита Иванов, основатель и технический директор компании GridGain

Начнем с того, что сбор, анализ и обработка больших объемов данных стали возможными благодаря развитию компьютерных технологий. Всего десять лет назад уровень ПО и «железа» не позволял собрать такое количество данных и проанализировать их с достаточной скоростью. Сегодня поток big data постоянно растет: это данные из соцсетей и поисковых систем, геоданные, IoT-данные, видеонаблюдение, данные сотовых операторов и т. д.

Преимуществом обладает тот, кто может в режиме реального времени анализировать полученную информацию и оперативно реагировать на нее. Счет идет не на дни, а на минуты или даже секунды.

От чего зависит скорость обработки больших данных? От архитектуры хранения и от выбранных инструментов анализа. Сегодня на рынке представлено достаточно широкое разнообразие решений, позволяющих с различной эффективностью хранить и обрабатывать big data. Рассмотрим их подробнее.

Дисковые аналитические системы

Работа с большими данными начиналась именно с дисковых систем, и они до сих пор широко распространены. Наиболее популярным является открытый фреймворк Apache Hadoop, а также его коммерческие версии от Microsoft, Cloudera, Hortonworks, MapR и др. Hadoop является достаточно надежным и масштабируемым решением, к которому разработаны дополнительные программные компоненты для анализа и обработки данных (Hive, Spark, Oozie, Pig и др.). В силу распространенности Hadoop на рынке труда представлено большое количество IT-специалистов, умеющих с ним работать. Среди крупных ритейлеров, использующих дисковые системы – Amazon, Alibaba, New Yorker, японский онлайн-гипермаркет Rakuten, сеть гипермаркетов «Лента».

Основной недостаток дисковых систем – сложность их развертывания. Не каждая компания может позволить себе приобретение и обслуживание большого количества физических серверов, не говоря уже о собственном дата-центре. Частично эта проблема решается с помощью облачных сервисов. Вы получаете готовую к использованию масштабируемую платформу, не требующую сложного внедрения и конфигурирования, а ее поддержкой и обслуживанием занимается провайдер сервиса.

Облачные решения поставляют такие компании, как Oracle, SAP, Google, Microsoft, IBM и другие. Как правило, это PaaS-платформы на основе Hadoop с различными инструментами для хранения, аналитики и визуализации. Big data в облаке хранят и обрабатывают такие ритейлеры как «Декатлон», «Эльдорадо», «Юлмарт» и другие.

Тем не менее, у дисковых систем хранения (как локальных, так и облачных) есть еще один недостаток, который нельзя устранить. При хранении big data на диске загрузка данных требует определенного времени, а данные, находящиеся в облаке, также в действительности хранятся на физических серверах дата-центра. При оперировании большими массивами данных значительно снижается скорость системы, что нежелательно в высококонкурентной среде.

In-memory computing

In-memory computing или in-memory processing – это технология, которая обеспечивает сверхбыструю обработку данных путем их распределенного хранения в оперативной памяти. В результате скорость анализа и выявления закономерностей многократно увеличивается.

Интересно, что для этого не нужна продвинутая инфраструктура: несколько обычных офисных компьютеров превращаются в распределенный «суперкомпьютер», который может совершать до миллиарда операций в секунду. Если память одного компьютера переполняется, программа подключает другие ПК, входящие в эту же сеть – т. е. можно легко масштабировать систему согласно нуждам бизнеса.

На данный момент in-memory платформы разрабатывают такие компании как SAP, Oracle, IBM, Microsoft, а также многочисленные стартапы. «М-Видео» и Walmart уже внедрили обработку больших данных с помощью этой технологии.

В числе недостатков этой технологии – сравнительно высокая стоимость оперативной памяти (которая все же постепенно снижается). Если нет возможности выстроить локальную систему in-memory вычислений, можно подключиться к облачной in-memory платформе (например, SAP HANA) и переложить все заботы на облачного провайдера.

Еще один недостаток — это риск потери данных при обесточивании или перезагрузке. Данные просто исчезают из оперативной памяти. Есть методы для снижения этого риска, но самым надежным является резервное копирование данных на диске.

Это подводит нас к следующей категории – гибридным решениям для обработки big data.

Читайте также: Что нужно знать о трендах в электронной коммерции на 2018 год?

Гибридные решения

Гибридные решения — это системы, объединяющие в себе скорость in-memory обработки данных и надежность дискового хранения. В качестве примера можно привести Apache Ignite, который изначально создавался как in-memory решение, но затем получил собственное дисковое хранилище, которое масштабируется вместе с кластером.

Гибридные решения устраняют проблему возможной нехватки оперативной памяти. Если места в RAM недостаточно, данные просто вытесняются на диск и остаются доступными для обработки.

Важно отметить, что гибридные решения отличаются от in-memory систем, к которым подключены сторонние дисковые СУБД. Сторонняя СУБД – это узкое место, которое снижает скорость работы и ограничивает масштабируемость всей системы. В случае гибридного решения скорость остается максимально высокой, а диск используется только для резервного копирования и хранения первичных данных.

Сегодня Apache Ignite успешно используется компанией Newegg (крупнейшим IT-ритейлером Северной Америки), а также Apple, Sony и Canon. В России, например, эту платформу внедряет «Сбербанк».

Недостаток гибридных решений тот же, что и у in-memory платформ – высокая стоимость оперативной памяти, т. е. для создания крупного кластера с действительно высокой производительностью потребуются весомые инвестиции. Впрочем, здесь также доступны облачные решения – например, Google и Amazon Web Services предлагают облачные среды с поддержкой Ignite.

***

Как уже было сказано выше, в высококонкурентной бизнес-среде крайне важна скорость реакции на новые тренды и изменения покупательских предпочтений. От этого может зависеть, получит компания прибыль или же убытки. Поэтому каждый крупный ритейлер должен задать себе вопрос: готовы ли мы воспользоваться новейшими технологиями, чтобы быть на шаг впереди конкурентов?

Никита Иванов, основатель и технический директор компании GridGain

20:45	Общая сумма платежей за заказы с курьерской доставкой выросла на 13%
20:20	Бывший топ-менеджер ЦУМа возглавила маркетинг в «Авито Работа»
19:55	Михаил Мишустин поручил ускорить процесс принятия закона о маркетплейсах
19:30	Сбербанк вновь привлек внимание ЦБ на финансовые «дочки» маркетплейсов
19:05	Как работодатели удерживают персонал – опрос hh.ru
18:40	L’Oréal приобретает бренд по уходу за волосами Color Wow
17:50	В работе сервисов VK зафиксирован сбой

Какие технологии могут повысить скорость обработки big data в ритейле

Последние новости

Самое популярное