0/5

Что нужно знать ритейлеру о Data Lake

Что нужно  знать ритейлеру о Data Lake
время публикации: 11:30  09 октября 2017 года
Теги: big data
Только мы более-менее определились с термином Big Data, как вокруг него образовалось еще несколько понятий, которые нам так или иначе придется осмыслить и принять. Одно из них - Data Lake: все чаще этот термин встречается в контексте систем хранения больших данных. Что это такое и что стоит знать об этом ритейлеру?

Существует много разных определений понятия «озеро данных». Если кратко, то Data Lake — место хранения, способ организации хранения больших данных и их обработки. Несмотря на бурное развитие технологий Big Data и Business Intelligence, специалисты не перестают искать более эффективные способы анализа данных.

Технология работы с большими данными Data Lake приходит на смену классическим корпоративным хранилищам данных. Корпоративное хранилище данных — это технология хранения данных, строящаяся по принципу сверху вниз — от запросов бизнеса. Например, руководство хочет видеть конкретные отчёты. Следовательно, структура хранения данных и процедура их получения подстраивается под этот запрос: ищется решение, каким образом нужно хранить данные, чтобы получить необходимый отчёт.

Если приводить примеры из индустрии ритейла, то для розницы это будут внутренние исторические данные, такие как информация о транзакциях, совершённых в торговой сети за определенный период времени в прошлом. В рамках Data Lake как методологии структура имеет вид «снизу вверх». Так происходит потому, что структура данных, которые мы соберем в будущем, нам досконально неизвестна. Например, мы не знаем, что именно будет пользоваться повышенным спросом завтра, но можем это предсказать. Ведь для того, чтобы оставаться конкурентоспособными, ритейлеры должны анализировать не только прошлое поведение клиентов (что покупали, какие были тренды, что было хитом продаж, что не было и т.д.), но и стараться предугадывать покупательское поведение, предсказывать волны спроса, заранее прогнозировать товары-хиты – словом, делать все, чтобы выстраивать стратегию взаимодействия с покупателями и зарабатывать больше денег.

В корпоративных хранилищах, как правило, находится информация о транзакциях, уже совершённых в торговой сети (заказы, платежи, кассовые чеки). Если же мы говорим про Data Lake, то помимо внутренней информации, там находится внешняя — активность клиента в социальных сетях, действия клиента интернет-магазина — куда он кликал, какие товары смотрел и т.д. Хранилища Data Lake позволяют также накапливать и обрабатывать потоковую информацию: информацию с различных датчиков, логи событий, потоковое видео. Так, ритейлер может, например, осуществлять привязку покупок к конкретным покупателям, используя технологии распознавания лица. Это позволяет решать такие задачи как, например: определение эмоций покупателя, определение членов одной семьи, выявление случаев мошенничества или кражи. Все это позволяет предоставлять наилучшее качество услуг и еще лучше таргетировать маркетинговые предложения.

Что надо знать ритейлеру про Data Lake

Таким образом, если ритейлеру необходимо анализировать лишь историческую информацию, достаточно и классических корпоративных хранилищ данных. Если же он хочет предугадывать те или иные тренды или события, то ему будет недостаточно этого подхода — необходима дополнительная информация по текущим активностям покупателей в социальных сетях, их реакции на рекламные кампании тех или иных продуктов, информация о предзаказах, сообщения на форумах и т.д.

Для ритейлера, претендующего на лидерство, интересна, прежде всего, предиктивная (предсказательная) аналитика, которую способна предоставить технология Data Lake.

Как пользоваться Data Lake

Data Lake — это технология, которая доступна только в облаках по подписке. «Озёра данных» — это файловая система и набор инструментов для обработки данных и обычно создаются на основе технологий обработки «больших данных» («Big data») таких как Hadoop и Spark. Имеющаяся у Microsoft платформа Azure Data Lake позволяет использовать эти и другие решения big data для обработки данных любого формата и объема. Этой технологией можно воспользоваться как услугой по мере возникновения потребностей. Кроме того, конфигурация решения легко изменяется в любой момент времени для более точного соответствия потребностям клиента и обеспечения полного контроля за расходами.

Область применения этой технологии достаточно широка. Но сразу отмечу, работать с Data Lake сможет только грамотный data scientist — эксперт по работе с данными, аналитик. И у ритейлера должны быть такие люди в команде, поскольку в Data Lake не существует каких-то преднастроенных шаблонных решений. Формирование технического облика конкретного решения — каждый раз вопрос анализа потребностей конкретного заказчика.

Какие задачи может решить ритейлер c помощью Data Lake

  1. Предсказание динамики изменения спроса на те или иные группы товаров.
  2. Повышение эффективности персонифицированных предложений. Предсказание отклика на персональные маркетинговые предложения — когда ритейлер не всем подряд предлагает одну и ту же скидку, а делает это точечно (кому-то скидку, кому-то подарок, кому-то дополнительные бонусы на карту и т.д.)
  3. Выявление мошенничества как со стороны покупателей, так и со стороны работников.
  4. Повышение качества обслуживания

Для повышения эффективности персонификации необходимо строить модели, которые определяют эффективность той или иной коммуникации и смогут предсказать, к каким клиентам с какой коммуникацией идти. Для того, чтобы строить модели, которые будут оценивать персонифицированное взаимодействие на потребителя, ритейлер должен проводить определённую сегментацию, кластеризацию групп покупателей. При этом ключевой критерий сегментирования — не просто разделение покупателей по возрасту, полу и территориальной принадлежности, а разделение на группы, которые обладают устойчивыми характеристиками, отличающими их от других сегментов (как правило, это поведенческие характеристики).

Что надо знать ритейлеру про Data Lake.jpg

Как происходит работа с данными?

Для начала необходимо наполнить систему данными. Ритейлер должен иметь информацию о своих клиентах, хотя бы минимальный ее набор — скажем, email и номер телефона. Существуют специальные технологии по сбору данных о потребителях и это не имеет отношения к Data Lake, потому что «озеро» — это инструмент накопления, хранения и обработки данных.

Инструменты по сбору данных могут собирать информацию о покупателях из внешних источников – например, из социальных сетей — мониторить, на какие сайты покупатель ходит, какие товары смотрит и заказывает, насколько он вообще активен в интернете.

Существуют методики, которые на основании самого базового набора данных позволяют осуществлять их кластеризацию. С помощью методики можно выделить сегменты, просто применив их к базовому набору свойств и характеристик данных. Вариантов сегментации получается достаточно много, и задача аналитика — выбрать наиболее релевантные конкретному виду бизнеса сегменты и решить, как с ними дальше работать. Соответственно, симбиоз экспертизы аналитика и действующих технологий позволяет выделить сегменты клиентов.

Затем эта информация отправляется в «озеро данных» и проводится анализ активностей того или иного кластера на основании данных, которые есть в Data Lake. То есть вся информация, накапливаемая бизнесом, стекается в Data Lake, хранится там и анализируется. Именно эта технология может позволить найти скрытые закономерности, которые дадут бизнесу новые возможности.

Технология, например, позволяет соотносить данные о транзакциях и информацию по кликам покупателей (куда кликают, когда уходят, когда положили товар в корзину и ушли или, наоборот, положили товар в корзину и купили) — всё это анализируется и помогает решать проблемы с конверсией, даёт понимание, что нужно делать, чтобы пользователь не бросал товары в корзине. Например, при наличии номера телефона покупателя, можно отправить ему SMS-напоминание о товарах в корзине и посоветовать посмотреть что-то ещё, если товары ему всё-таки не подошли.

Также можно анализировать поведение покупателя в прошлом для предсказывания его поведения в будущем, что позволяет выстроить более точечную коммуникацию.

Как не превратить «озеро» в помойку

Что надо знать ритейлеру про Data Lake

Действительно, в Data Lake, как правило, хранится избыточная информация. Тем не менее она не является «помойкой» — все потоки данных (социальные сети, действия на сайтах, транзакции) лежат обособленно и не связаны с друг с другом. Порядок при формировании Data Lake поддерживается специалистом по анализу данных.

Как это работает на практике

Технология Data Lake уже используется в России. Компанией Softline реализован проект для одного из российских ритейлеров по предсказанию эффективности маркетинговых предложений. Разработанная модель использует данные об истории покупок клиентов и их откликах на предыдущие кампании, а также обогащенные данные о профиле клиента, собранном на основе активности в социальных сетях и интернете, хранящиеся в Azure Data Lake. Ключевыми результатами проекта стало снижение маркетингового бюджета на 30% при росте конвертации контактов в заказы более чем в 2 раза.

Станислав Воронин,
 руководитель направления внедрений систем бизнес-аналитики
департамента бизнес-решений ГК Softline 

0
Реклама на New Retail. Медиакит