Лайки, фото и комменты: как вытащить из соцсетей всю информацию о покупателях
О том, какие данные пригодятся ритейлерам и как их выудить из соцсетей, рассказывает Артур Хачуян, основатель сервиса SocialDataHub. Сервис умеет мониторить практически весь интернет, и на основе полученных данных отслеживать и детально понимать структуру аудитории бренда, параметры потребления контента, предпочтения и поведенческие особенности пользователей.
Чем ваш сервис может помочь ритейлеру?
Ритейлеру чаще всего нужно моделирование поведения покупателя.
У нас есть две схемы взаимодействия. В первом случае компания передает информацию из CRM о своих клиентах которые уже покупали какой-либо продукт. Мы находим их в социальных сетях, понимаем, кто они, какие у них интересы, что их заставило купить этот продукт. Может быть находим какой-то контент, с которым они взаимодействовали, и это их привело к продукту.
Во втором случае мы ставим на сайт крупного ритейлера счетчик, который отлавливает посетителей. Мы объединяем информацию об их поведении с информацией из социальных сетей. В результате мы можем предсказать поведение людей и либо предлагать им какой-то товар, который им будет полезен, либо двигаться в сторону предикативного маркетинга. Например, у нас есть покупатель-мужчина. Из соцсетей мы знаем, что у него есть жена, автомобиль, они ждут ребенка. Значит магазин должен предложить ему через какое-то время детское автокресло. Эта история работает для крупного ритейла, уровня «Юлмарта» или «Техносилы». На их объемах мы можем очень хорошо прогнозировать – находить общие группы, интересы и понимать, каким людям какие продукты предлагать.
А разве рекомендательные сервисы на сайтах работают иначе?
Все, в принципе, работают одинаково. Но существующие сервисы оценивают продуктовую корзину, то, что человек уже купил. Выводы делаются на основании покупок. Условно, если ты купил автомобиль, значит нужно предложить зимой шины. А мы помимо этого используем дополнительные источники – соцсети, блоги, форумы, паблики. Мы можем получить данные HeadHunter или Superjob для расчета зарплаты, данные ЦИАН для расчета стоимости жилья и т.д.
Где вы берете эти данные, как вы их собираете?
У нас есть роботы, которые ежедневно обходят все соцсети, собирая всех пользователей, контент пользователей – их интересы, что они лайкают, что смотрят, в каких группах состоят.
Есть роботы, которые обходят паблики, блоги, форумы, Avito, Яндекс.Маркет, собирают оттуда номера телефонов, всю информацию - что продавали, где продавали.
Есть скрипт, которые объединяет эти данные между собой. Например, женщина писала, что у нее есть кошка двухлетняя – она маркируется как владелец этой кошки. Кто-то продавал что-то, кто-то лайкает Навального…
Под каждый маркер когда-то написали алгоритм, который эти маркеры и проставляет. Например, как часто человек путешествует? Если часто, то нужно посмотреть в какую страну путешествует, сколько стоил туда перелет в это время – на основании всяких доступных источников о ценах. Если он зачекинился в отеле – можно посмотреть, сколько стоит средний номер в этом отеле. Так можно понять, во сколько ему вышло это путешествие. Если понять, что он написал и где он фотографировался, мы понимаем, активно человек отдыхал или он любит отдых на природе, или он спортсмен. Здесь есть много маленьких решений.
Самое интересное, например, как определить возраст человека в Инстаграм. Самый простой способ – взять всех людей и у каждого человека посмотреть все публикации. Среди этих публикаций найти публикацию о дне рождении, типа «Ура, мне 27!». Затем посмотреть на дату публикации и вычислить возраст на сегодняшний момент.
Это несложная вещь, но она сложно реализуется технически – нужно собрать всех пользователей, а потом у каждого - все публикации. По сути – собрать весь Инстаграм.
Если не считать технических сложностей в сборе и хранении, сам по себе этот алгоритм очень простой.
Что касается анализа фото и видео, мы можем распознавать образы на фото, например, автомобили. Мы можем найти владельцев красных BMW и т.д.
К вам приходят ритейлеры с конкретными запросами – найти всех владельцев красных BMW? Или просто с какой-то болью – «хочу поднять продажи»?
Бывает, приходят с болью. Есть случаи, когда приходят и говорят: «Мы знаем свою аудиторию. Это владельцы цветочных ларьков, у которых зимой нету прибыли, им нужен кредит, который мы предоставляем».
В таком случае мы ищем ларьки по данным реестров юрлиц или ИП, анализируем трафик прохода возле них – чекины, соцсети, плотность мобильного трафика – и находим нужных клиентов.
Вот недавно был запрос, мне он очень нравится – «найдите нам подружек невест». То есть нам нужно было найти женщин, которые фотографировались в свадебных платьях или написали, что у них скоро свадьба, и найти для каждой трех подруг, с которыми у них сильные социальные связи.
Запросы приходят разные, и разбираются они вручную. Наш специалист общается с клиентом, а затем транслирует информацию аналитику, который подготовит алгоритм и получит какой-то результат.
Что чаще всего просят ритейлеры?
Мы работали с несколькими крупными ритейлерами – у них задача правильно прогнозировать спрос, покупки, интерес к товару. Никакого секретного ноу-хау здесь нет, просто за счет соцсетей мы берем какой-то пласт людей. Например, люди, которые купили машину и написали об этом в соцсетях– мы им предлагаем какой-то релевантный товар. Или женщины, у которых ребенок родился, или ребенок достиг нужного возраста – им нужно какой-то другой продукт предложить.
Бывает, что, когда мы это все анализируем, у крупного ритейлера выявляется неожиданная закономерность. Недавно анализировали «УАЗ Патриот». Бренд считал, что их машина – это машина для семейных людей, а оказалось, что эту машину покупают холостяки, которые любят кататься по бездорожью, топить машину в грязи и т.д.
По сути все решается анализом текстов, фото или видео и моделированием поведения.
Наше небольшое ноу-хау в том, что мы анализируем лайки людей. Если большинство компаний делает выводы о интересах и предпочтениях на основании ТОП-10 групп, на которые подписан пользователь, то это необъективно – люди подписаны на всякую ерунду в соцсетях. А вот то, что ты лайкаешь – этот контент и есть твои реальные интересы. Из них можно многое понять – сексуальные предпочтения, интересы к брендам, политические взгляды и т.д.
Насколько точны ваши результаты?
У нас такая практика. Клиент выдает запрос, мы рассказываем, что и как мы будем делать, как будет структурирован алгоритм, что из его запроса мы сможем сделать, а что нет, и с какой точностью. Мы обычно не делаем ничего, у чего точность была бы меньше 95%. То есть, из всех тех, кого мы находим по запросу, 95% людей точно подходят под заданные критерии.
Конечно, есть погрешность, она связана с тем, что многие люди на самом деле живут не так, как пишут о себе в соцсетях.
Например, если посмотреть в соцсетях выпускников Московских вузов, то их по факту на 60% больше, чем вообще в принципе их было во всех вузах за все время. Лидируют в этом плане МГУ и МГИМО – люди считают, что это престижные вузы и будет круто написать в профиле это место учебы. Мы с ВШЭ недавно работали, и с другими вузами. Они передавали нам своих выпускников, мы искали их в соцсетях, смотрели карьерный рост. Для ВШЭ, например, очень многие оставляют запись в профиле, если они туда поступали, но не поступили.
Мы стараемся брать формальные метрики. И если человек путешествовал, то мы смотрим, есть ли у него фотографии, что они настоящие, с геотегами и т.д.
Мы берем только фактическую информацию. Если человек фотографируется в течение года на фоне одного и того же автомобиля, то нам надо убедиться, чтобы эта машина нигде в интернете на других фото не мелькала – тогда мы понимаем, что это его автомобиль. Конечно, может быть погрешность, но мы стараемся, чтобы она была не выше 5%.
А как быть, если человек лайкает что-то, что нравится ему лично, или что-то связанное с его работой – это могут быть совсем разные вещи.
Да, может быть, но как правило рабочие моменты люди не лайкают. Но даже если так, то достаточно определить временные промежутки – утро, день, вечер, будние дни.
Если сравнить, что люди лайкают в рабочие и нерабочие часы – можно даже вывести интересные зависимости. Например, понять, что женщина - домохозяйка.
Данные, которыми вы оперируете – персональные?
Да, персонализированные. Но это не запрещено. Все, с чем мы работаем – это данные, которые находятся в открытом доступе. Все, что вы пишете или лайкаете – это никакой не секрет, это открытые данные. Эту информацию сложно добыть в больших количествах, сложно сделать какой-то вывод из нее, но это не попадает под 152-ФЗ о Персональных данных.
Получается, что вы слишком много знаете о пользователях интернета. Это не нарушает права или личные границы человека?
Нет. Все то, что вы делаете открыто в интернете – присоединяетесь к группам в соцсетях, ставите лайки – это все может отследить кто угодно.
Закрытые профили мы не анализируем – это нарушает все мыслимые и немыслимые запреты. Но есть возможность, например, получить телефон из открытых источников, если объединить профиль человека и его комментарии. Например, если люди что-то продают в соцсетях, они пишут номер телефона и там же оставляют свое реальное геоположение.
Кстати, если проанализировать все геометки человека, которые он когда-либо проставлял, то 80% из них - это работа и дом. Если взять градиент в сторону центра, то, что дальше от центра – это дом, а то, что ближе – работа. Редко, когда наоборот, но это можно понять по его записям.
Какое количество людей в среднем вы анализируете?
146 млн. человек – все, кто живет в стране, практически на каждого есть информация. На кого-то ее много – это пользователи соцсетей. Но есть люди, на которых нету данных в соцсети, но есть данные в службе судебных приставов, Avito, ЦИАН, Auto.ru. То есть, практически про каждого гражданина есть хоть что-то.
А как самим пользователям можно обезопасить себя?
Просто – ничего не постить. Мы работаем только с открытыми данными, ничью приватность не нарушаем, не сдаем людей государству и т.д.
Все это все равно продается клиенту в виде какого-то среза. Крайне редко ему выдаются какие-то контактные данные.
Если и выдаются, то это обычно какой-нибудь супертаргетинг аудитории, мы делаем это только для проверенных клиентов, когда точно знаем, что они не будут спамить и т.д. , а только таргетируют на него рекламу в соцсетях, реально ту, которая ему нужна.
Ваши алгоритмы могут предсказывать поведение пользователей? Например, вероятность покупки в ближайшее время?
Да, у нас есть такие алгоритмы, но пока мы продаем их только очень крупным клиентам. Исходя из нашего правила не продавать то, что работает менее чем на 95%, мы это решение предлагаем только крупным компаниям – на их трафике, их объемах, оно работает хорошо.
Что будет дальше, когда ритейлеры научатся понимать свою аудиторию?
Я вижу два тренда. Во-первых, реклама уйдет в нормальное прогнозирование и людям перестанут показывать ужасную контекстную рекламу тех товаров, которые они уже купили.
Во-вторых, изменятся соцсети. С одной стороны я вижу, что количество закрытых акканутов в ВК за прошедший год уменьшилось на 6%. В Инстаграм – на 12%. Люди реже стали регистрировать закрытые аккаунты. Несмотря на то, что у нас идет нагнетание ситуации вокруг тотальной слежки и т.д. С другой стороны, соцсети типа Facebook позволят больше анонимности. Например, я очень жду от них введения такой функции, когда люди не смогут на фотографиях видеть лица людей, которые у них не в друзьях. То есть, ты публикуешь фото с вечеринки, где ты в окружении людей, а их лица замываются для тех, с кем они не в друзьях.
Я думаю, что в ближайшие лет пять будет очень большой всплеск социального терроризма. Например, у меня трубу прорвало, а я не мог до нашего ЖЭКа дозвониться, чтобы они что-нибудь сделали.
Я нашел нужного человека из ЖЭКа в соцсетях, там же нашел аккаунт и контакты его жены, аккаунты детей – им тоже написал. Нашел контакты директора школы, где учатся дети, и им написал – через 15 минут протерроризировал всех, но добился, чтобы мою проблему решили.
Мы с государством участвовали в подготовке нескольких законопроектов и БигДату в течение ближайших года-двух обуздают. Мы понимаем, что нельзя компаниям типа нашей запретить анализировать открытые данные. Потому что все, что человек сказал в открытый доступ – это никак не запретить. Но тем не менее, мы за разумное ограничение таких технологий.