Лайки, фото и комменты: как вытащить из соцсетей всю информацию о покупателях

Персонализация, сегментация, таргетинг и Look-alike – как только ни пытаются ритейлеры найти свою аудиторию и угадать ее потребности. Но, как правило, все рекомендательные системы работают с очень скудными данными: историей покупок и просмотров страниц на сайте интернет-магазина.

А тем временем, в открытом доступе есть огромное количество информации, которая точно подскажет, чего хотят потребители, и кому вообще интересен продукт. Это все то, что пишут, читают и комментируют потенциальные покупатели в социальных сетях, блогах и форумах. Вот только выудить эти данные из Сети совсем не просто.

О том, какие данные пригодятся ритейлерам и как их выудить из соцсетей, рассказывает Артур Хачуян, основатель сервиса SocialDataHub. Сервис умеет мониторить практически весь интернет, и на основе полученных данных отслеживать и детально понимать структуру аудитории бренда, параметры потребления контента, предпочтения и поведенческие особенности пользователей.

Чем ваш сервис может помочь ритейлеру?

Ритейлеру чаще всего нужно моделирование поведения покупателя.

У нас есть две схемы взаимодействия. В первом случае компания передает информацию из CRM о своих клиентах которые уже покупали какой-либо продукт. Мы находим их в социальных сетях, понимаем, кто они, какие у них интересы, что их заставило купить этот продукт. Может быть находим какой-то контент, с которым они взаимодействовали, и это их привело к продукту.

Во втором случае мы ставим на сайт крупного ритейлера счетчик, который отлавливает посетителей. Мы объединяем информацию об их поведении с информацией из социальных сетей. В результате мы можем предсказать поведение людей и либо предлагать им какой-то товар, который им будет полезен, либо двигаться в сторону предикативного маркетинга. Например, у нас есть покупатель-мужчина. Из соцсетей мы знаем, что у него есть жена, автомобиль, они ждут ребенка. Значит магазин должен предложить ему через какое-то время детское автокресло. Эта история работает для крупного ритейла, уровня «Юлмарта» или «Техносилы». На их объемах мы можем очень хорошо прогнозировать – находить общие группы, интересы и понимать, каким людям какие продукты предлагать.

А разве рекомендательные сервисы на сайтах работают иначе?

Все, в принципе, работают одинаково. Но существующие сервисы оценивают продуктовую корзину, то, что человек уже купил. Выводы делаются на основании покупок. Условно, если ты купил автомобиль, значит нужно предложить зимой шины. А мы помимо этого используем дополнительные источники – соцсети, блоги, форумы, паблики. Мы можем получить данные HeadHunter или Superjob для расчета зарплаты, данные ЦИАН для расчета стоимости жилья и т.д.

Где вы берете эти данные, как вы их собираете?

У нас есть роботы, которые ежедневно обходят все соцсети, собирая всех пользователей, контент пользователей – их интересы, что они лайкают, что смотрят, в каких группах состоят.

Есть роботы, которые обходят паблики, блоги, форумы, Avito, Яндекс.Маркет, собирают оттуда номера телефонов, всю информацию - что продавали, где продавали.

Есть скрипт, которые объединяет эти данные между собой. Например, женщина писала, что у нее есть кошка двухлетняя – она маркируется как владелец этой кошки. Кто-то продавал что-то, кто-то лайкает Навального…

Под каждый маркер когда-то написали алгоритм, который эти маркеры и проставляет. Например, как часто человек путешествует? Если часто, то нужно посмотреть в какую страну путешествует, сколько стоил туда перелет в это время – на основании всяких доступных источников о ценах. Если он зачекинился в отеле – можно посмотреть, сколько стоит средний номер в этом отеле. Так можно понять, во сколько ему вышло это путешествие. Если понять, что он написал и где он фотографировался, мы понимаем, активно человек отдыхал или он любит отдых на природе, или он спортсмен. Здесь есть много маленьких решений.

Самое интересное, например, как определить возраст человека в Инстаграм. Самый простой способ – взять всех людей и у каждого человека посмотреть все публикации. Среди этих публикаций найти публикацию о дне рождении, типа «Ура, мне 27!». Затем посмотреть на дату публикации и вычислить возраст на сегодняшний момент.

Это несложная вещь, но она сложно реализуется технически – нужно собрать всех пользователей, а потом у каждого - все публикации. По сути – собрать весь Инстаграм.

Если не считать технических сложностей в сборе и хранении, сам по себе этот алгоритм очень простой.

Что касается анализа фото и видео, мы можем распознавать образы на фото, например, автомобили. Мы можем найти владельцев красных BMW и т.д.

К вам приходят ритейлеры с конкретными запросами – найти всех владельцев красных BMW? Или просто с какой-то болью – «хочу поднять продажи»?

Бывает, приходят с болью. Есть случаи, когда приходят и говорят: «Мы знаем свою аудиторию. Это владельцы цветочных ларьков, у которых зимой нету прибыли, им нужен кредит, который мы предоставляем».

В таком случае мы ищем ларьки по данным реестров юрлиц или ИП, анализируем трафик прохода возле них – чекины, соцсети, плотность мобильного трафика – и находим нужных клиентов.

Вот недавно был запрос, мне он очень нравится – «найдите нам подружек невест». То есть нам нужно было найти женщин, которые фотографировались в свадебных платьях или написали, что у них скоро свадьба, и найти для каждой трех подруг, с которыми у них сильные социальные связи.

Запросы приходят разные, и разбираются они вручную. Наш специалист общается с клиентом, а затем транслирует информацию аналитику, который подготовит алгоритм и получит какой-то результат.

Что чаще всего просят ритейлеры?

Мы работали с несколькими крупными ритейлерами – у них задача правильно прогнозировать спрос, покупки, интерес к товару. Никакого секретного ноу-хау здесь нет, просто за счет соцсетей мы берем какой-то пласт людей. Например, люди, которые купили машину и написали об этом в соцсетях– мы им предлагаем какой-то релевантный товар. Или женщины, у которых ребенок родился, или ребенок достиг нужного возраста – им нужно какой-то другой продукт предложить.

Бывает, что, когда мы это все анализируем, у крупного ритейлера выявляется неожиданная закономерность. Недавно анализировали «УАЗ Патриот». Бренд считал, что их машина – это машина для семейных людей, а оказалось, что эту машину покупают холостяки, которые любят кататься по бездорожью, топить машину в грязи и т.д.

Популярная история связана с анализом фактов и мнений, когда из текста отзыва о продуктах выделяются какие-то факты. Например, «Я бы купила эту кашу, но в ней комочки». Это такая обратная связь мгновенная, особенно полезная для тех, кто выводит на рынок новые продукты. Можно, например, сделать интерактивный дашборд и показывать эти факты: «Сегодня было 10 жалоб на то, что в новой модели авто течет бачок омывателя».

По сути все решается анализом текстов, фото или видео и моделированием поведения.

Наше небольшое ноу-хау в том, что мы анализируем лайки людей. Если большинство компаний делает выводы о интересах и предпочтениях на основании ТОП-10 групп, на которые подписан пользователь, то это необъективно – люди подписаны на всякую ерунду в соцсетях. А вот то, что ты лайкаешь – этот контент и есть твои реальные интересы. Из них можно многое понять – сексуальные предпочтения, интересы к брендам, политические взгляды и т.д.

Насколько точны ваши результаты?

У нас такая практика. Клиент выдает запрос, мы рассказываем, что и как мы будем делать, как будет структурирован алгоритм, что из его запроса мы сможем сделать, а что нет, и с какой точностью. Мы обычно не делаем ничего, у чего точность была бы меньше 95%. То есть, из всех тех, кого мы находим по запросу, 95% людей точно подходят под заданные критерии.

Конечно, есть погрешность, она связана с тем, что многие люди на самом деле живут не так, как пишут о себе в соцсетях.

Например, если посмотреть в соцсетях выпускников Московских вузов, то их по факту на 60% больше, чем вообще в принципе их было во всех вузах за все время. Лидируют в этом плане МГУ и МГИМО – люди считают, что это престижные вузы и будет круто написать в профиле это место учебы. Мы с ВШЭ недавно работали, и с другими вузами. Они передавали нам своих выпускников, мы искали их в соцсетях, смотрели карьерный рост. Для ВШЭ, например, очень многие оставляют запись в профиле, если они туда поступали, но не поступили.

Мы стараемся брать формальные метрики. И если человек путешествовал, то мы смотрим, есть ли у него фотографии, что они настоящие, с геотегами и т.д.

Мы берем только фактическую информацию. Если человек фотографируется в течение года на фоне одного и того же автомобиля, то нам надо убедиться, чтобы эта машина нигде в интернете на других фото не мелькала – тогда мы понимаем, что это его автомобиль. Конечно, может быть погрешность, но мы стараемся, чтобы она была не выше 5%.

А как быть, если человек лайкает что-то, что нравится ему лично, или что-то связанное с его работой – это могут быть совсем разные вещи.

Да, может быть, но как правило рабочие моменты люди не лайкают. Но даже если так, то достаточно определить временные промежутки – утро, день, вечер, будние дни.

Если сравнить, что люди лайкают в рабочие и нерабочие часы – можно даже вывести интересные зависимости. Например, понять, что женщина - домохозяйка.

Данные, которыми вы оперируете – персональные?

Да, персонализированные. Но это не запрещено. Все, с чем мы работаем – это данные, которые находятся в открытом доступе. Все, что вы пишете или лайкаете – это никакой не секрет, это открытые данные. Эту информацию сложно добыть в больших количествах, сложно сделать какой-то вывод из нее, но это не попадает под 152-ФЗ о Персональных данных.

Получается, что вы слишком много знаете о пользователях интернета. Это не нарушает права или личные границы человека?

Нет. Все то, что вы делаете открыто в интернете – присоединяетесь к группам в соцсетях, ставите лайки – это все может отследить кто угодно.

Любой человек может получить к этому доступ. Ему только нужно будет для этого зайти в 9000 групп, в каждой группе посмотреть все публикации, и к каждой – все лайки. Теоретически, это можно сделать даже вручную.

Закрытые профили мы не анализируем – это нарушает все мыслимые и немыслимые запреты. Но есть возможность, например, получить телефон из открытых источников, если объединить профиль человека и его комментарии. Например, если люди что-то продают в соцсетях, они пишут номер телефона и там же оставляют свое реальное геоположение.

Кстати, если проанализировать все геометки человека, которые он когда-либо проставлял, то 80% из них - это работа и дом. Если взять градиент в сторону центра, то, что дальше от центра – это дом, а то, что ближе – работа. Редко, когда наоборот, но это можно понять по его записям.

Какое количество людей в среднем вы анализируете?

146 млн. человек – все, кто живет в стране, практически на каждого есть информация. На кого-то ее много – это пользователи соцсетей. Но есть люди, на которых нету данных в соцсети, но есть данные в службе судебных приставов, Avito, ЦИАН, Auto.ru. То есть, практически про каждого гражданина есть хоть что-то.

А как самим пользователям можно обезопасить себя?

Просто – ничего не постить. Мы работаем только с открытыми данными, ничью приватность не нарушаем, не сдаем людей государству и т.д.

Все это все равно продается клиенту в виде какого-то среза. Крайне редко ему выдаются какие-то контактные данные.

Если и выдаются, то это обычно какой-нибудь супертаргетинг аудитории, мы делаем это только для проверенных клиентов, когда точно знаем, что они не будут спамить и т.д. , а только таргетируют на него рекламу в соцсетях, реально ту, которая ему нужна.

Ваши алгоритмы могут предсказывать поведение пользователей? Например, вероятность покупки в ближайшее время?

Да, у нас есть такие алгоритмы, но пока мы продаем их только очень крупным клиентам. Исходя из нашего правила не продавать то, что работает менее чем на 95%, мы это решение предлагаем только крупным компаниям – на их трафике, их объемах, оно работает хорошо.

Что будет дальше, когда ритейлеры научатся понимать свою аудиторию?

Я вижу два тренда. Во-первых, реклама уйдет в нормальное прогнозирование и людям перестанут показывать ужасную контекстную рекламу тех товаров, которые они уже купили.

Во-вторых, изменятся соцсети. С одной стороны я вижу, что количество закрытых акканутов в ВК за прошедший год уменьшилось на 6%. В Инстаграм – на 12%. Люди реже стали регистрировать закрытые аккаунты. Несмотря на то, что у нас идет нагнетание ситуации вокруг тотальной слежки и т.д. С другой стороны, соцсети типа Facebook позволят больше анонимности. Например, я очень жду от них введения такой функции, когда люди не смогут на фотографиях видеть лица людей, которые у них не в друзьях. То есть, ты публикуешь фото с вечеринки, где ты в окружении людей, а их лица замываются для тех, с кем они не в друзьях.

У нас есть такой кейс – поиска человека, который «косит» от армии. Ему пришла повестка, он удалил свои аккаунты и уехал в другой город. Его нашли по фотографиям друзей, которые они опубликовали после вечеринки. При этом, он там даже не был помечен – у нас есть своя технология распознавания лиц, но мы продаем ее только государству. Дальше уже нашли ночной клуб, где была сделана фотография, затем обнаружили самого человека.

Я думаю, что в ближайшие лет пять будет очень большой всплеск социального терроризма. Например, у меня трубу прорвало, а я не мог до нашего ЖЭКа дозвониться, чтобы они что-нибудь сделали.

Я нашел нужного человека из ЖЭКа в соцсетях, там же нашел аккаунт и контакты его жены, аккаунты детей – им тоже написал. Нашел контакты директора школы, где учатся дети, и им написал – через 15 минут протерроризировал всех, но добился, чтобы мою проблему решили.

Мы с государством участвовали в подготовке нескольких законопроектов и БигДату в течение ближайших года-двух обуздают. Мы понимаем, что нельзя компаниям типа нашей запретить анализировать открытые данные. Потому что все, что человек сказал в открытый доступ – это никак не запретить. Но тем не менее, мы за разумное ограничение таких технологий.

10:15	ГК «Главпродукт» под госуправлением столкнулась с падением продаж
09:50	Японский бренд Makita возобновляет активность на рынке РФ
09:25	Производитель Papia хочет расширить продажи импортируемой продукции
20:45	У каждого четвертого россиянина нет сбережений – исследование
20:15	Fix Price в I полугодии открыл 38 новых магазинов в Казахстане
19:50	Авито Работа: 28% россиян регулярно используют нейросети для рабочих задач
19:25	Яндекс Фабрика: что выбирают родители и сколько готовы заплатить

Лайки, фото и комменты: как вытащить из соцсетей всю информацию о покупателях

Последние новости

Самое популярное