В нашем сегодняшнем обзоре мы будет опираться на опыт и знания специалистов из Mail.ru, «Инфосистемы Джет» и Insider – решения этих компаний уже работают на российском рынке – и подробнее поговорим о том, как предиктивные алгоритмы помогают предсказывать поведение покупателей.
Все познается в сравнении
Алгоритмов прогнозирования существует огромное множество. Базовый принцип работы машинного обучения – сравнение. Обучаясь на некотором тестовом объеме данных, система учится правильно определять входящие данные. Упрощенно можно представить процесс следующим образом. Изначально система получает информацию обо всех покупателях, купивших определенный товар, в виде набора признаков (пол, возраст, история покупок и посещений сайта и т.д.). Если нам нужно предсказать, кто из новых посетителей купит тот же товар, система выстроит некий «портрет», отобрав те характеристики, которыми похожи все покупатели этого товара. А затем, будет сравнивать новых покупателей с этим портретом, определяя их похожесть, а значит, вероятность покупки нужного товара . А вот то, как машина рисует себе этот «портрет», как раз и определяется алгоритмами.
«Существует множество различных методов машинного обучения. Какой из них использовать – зависит от многих факторов: типа задачи, объема данных, требований к производительности, – рассказывает Сергей Бернадцкий, аналитик Центра программных решений компании «Инфосистемы Джет». – Ключевой момент, который стоит пояснить, – нет одного универсального метода машинного обучения. Если нам необходимо построить модель, которая будет прогнозировать сумму покупок, то для этой цели, вероятно, подойдет обычная линейная регрессия. Если нужно распознавать объекты на изображениях, то вне конкуренции нейронные сети, в частности сверточные нейронные сети. Их принцип действия схож с работой нашей зрительной системы. В процессе обучения такой нейронной сети формируются «фильтры», которые реагируют на определенные участки изображений — на характерные изгибы линий, цвета, формы. В итоге сеть учится узнавать нужные нам объекты.
Общий принцип следующий. По каждому покупателю собирается определенная статистика: частота покупок товаров из тех или иных категорий, средний чек, тональность его отзывов о продуктах, среднее время пребывания на сайте, версия браузера и т.д. Также собирается информация о товарах: стоимость, описание, категория и т.д. Таким образом, мы получаем два блока данных — клиенты и товары.
Дальнейшие ограничения задает объем обрабатываемых данных. Если мы говорим о сотнях гигабайт, то в дело вступает Apache Spark и метод Alternating Least Squares(ALS). Общая суть метода в том, что он фиксирует параметры покупателей и подбирает под них товары, а потом фиксирует параметры товаров и подбирает под них покупателей. Этот метод прекрасно подходит для параллельных задач и дает возможность задействовать все мощности кластера.
Если данных несколько гигабайт и вычислительные мощности позволяют с ними работать, можно использовать более богатый выбор методов, в том числе Singular Value Decomposition (SVD), Модели Маркова и т.д. Каждый метод хорошо применим в отдельных ситуациях, и ключевая задача здесь – выбрать, какие данные и при каком наборе методов дадут наилучший результат».
Вадим Мамедов, коммерческий директор Insider Russia, рассказывает о запущенной недавно предиктивной технологии AD Audience, которая базируется на алгоритмах искусственного интеллекта.
«Наше решение, во-первых, собирает всю — вообще всю — информацию о том, что делают пользователи на сайте. В базу данных можно также интегрировать те данные, которые уже накоплены у ритейлера: базы подписчиков, базы, собранные через пиксели ретаргетинга, другие пользовательские данные.
И во-вторых, система сразу же начинает эту информацию интерпретировать: выстраивать цепочки, отслеживать закономерности поведения. Естественно, самый главный вопрос: как определить тех пользователей, которые наиболее склонны к покупке. Опираясь на весь накопленный массив данных, алгоритм ранжирует всех посетителей сайта. Часть клиентов при этом ведет себя похоже на тех пользователей, которые уже совершили покупку на сайте. Таким сеансам алгоритм выставляет наиболее высокие оценки и собирает их в отдельные списки или реестры. Получается, что мы предсказываем, кто из покупателей что будет делать в ближайшее время. Даем вам информацию о наиболее вероятных их следующих шагах.
Аналогично можно формировать списки (реестры, «аудитории») из тех пользователей, кто находится на определенном этапе жизненного цикла клиента. Можно, например, сделать выборку тех, кто скорее всего в ближайшее время перестанет у вас покупать. Или изменит частоту покупок на сайте».
Кто способен оценить
Порой алгоритмы, используемые прогнозной аналитикой настолько сложны, что мы даже не можем четко описать, на основании чего система принимает решение, как она выделяет и группирует нужные признаки и почему ошибается. Наблюдая изменения бизнес-показателей – повышение конверсии или увеличение среднего чека – мы не можем утверждать, что система работает с максимальной отдачей. То есть, нельзя однозначно оценить эффективность алгоритма, замеряя итоговый результат. Для этого нужны отдельные средства.
«Результат – это вопрос для отдельного обсуждения, – говорит Сергей Бернадский. – В свое время компания Netflix предложила использовать метрику RMSE (Root Mean Square Error): она показывает, насколько модель в среднем ошибается с предсказанием относительно существующих наблюдений. Сегодня это стандартная метрика для прогнозирования подобного рода. Но у нее есть ряд своих недостатков, например, при отличном показателе среднеквадратичной ошибки (RMSE) мы можем получить очень плохое значение ранжирования. Задача ранжирования – сортировка набора элементов из соображения их релевантности. Для ее решения может использоваться метрика Average precision at K (ap@K), которая показывает, насколько хорошо модель предсказывает попадание в ТОП N, например, в ТОП 10.
В остальном у всех моделей есть общие проблемы, например, проблема холодного старта, когда данных о наблюдаемом товаре или клиенте нет».
Где использовать прогнозы
Результаты прогнозирования можно использовать в самых разных областях. Можно персонализировать страницы сайта, предлагая те категории или товары, которые посетитель купит с наибольшей вероятностью. Можно показывать всплывающие сообщения, чтобы подтолкнуть его к покупке или любому другому нужному действию: заполнению анкеты, заявки, звонку и т.д.
Эти данные можно использовать в контекстной рекламе, в таргетированной рекламе в соцсетях, ретаргетинге и рассылках.
«Важно понимать, что весь анализ происходит в реальном времени, — уточняет Вадим Мамедов. – Нет такого: вот человек зашел на сайт, вот мы собрали информацию, проанализировали и сидим ждем, когда он зайдет в следующий раз, чтобы ему что-то такое сообщить важное. Нет, все происходит в реальном времени. Даже если человек впервые на вашем сайте, наш алгоритм все равно может очень быстро ранжировать его поведение и отнести к тому или иному сегменту. Нам не нужно знать электронный адрес человека, его имя или что-то еще, чтобы в рамках даже первого сеанса показывать ему персонализированные, уместные уведомления — на вашем сайте или в виде браузерных пушей».
Хороший пример с персонализацией страниц есть у Ozon.ru. Компания Mail.Ru Group помогает интернет-магазину персонализировать главную страницу сайта под интересы посетителей в разных категориях, а также помогают идентифицировать наиболее ценных будущих покупателей на ранних этапах взаимодействия с сайтом.
Алгоритмы оценки пользователей разработаны с использованием методов машинного обучения. В Mail.Ru Group большая команда инженеров-математиков и накоплена уникальная компетенция в Data Science, что позволяет извлекать полезные для бизнеса знания и инсайты из накопленных данных о клиентском поведении.
Сервис персонализации содержит несколько математических моделей, они построены на данных, накопленных в OZON.Ru, которые дополнены обезличенной информацией о поведении пользователей в интернете. Это дает хорошую синергию. В результате появляется возможность достаточно точно предсказывать краткосрочный и долгосрочный интерес посетителя сайта. Эти предикторы рассчитываются в облачном сервисе Mail.Ru Group и в режиме реального времени передаются в систему управления контентом e-commerce площадки.
Получая знания, рассчитанные математической моделью, OZON.ru динамически изменяет содержимое страниц сайта и предлагает посетителю информацию и предложения в соответствии с его текущими интересами. Получается более персонифицированная и целевая коммуникация.
Индекс соответствия контента главной страницы OZON.ru интересам пользователей вырос в полтора раза с момента начала совместной работы.
Точно в цель
Прогнозируя поведение посетителя на сайте, мы можем контролировать эти перемещения, направляя его к нужной цели: к нужному товару, к корзине, к оплате. Делать это можно, как мы уже выяснили, любыми удобными средствами. Выгода в том, что мы точно знаем, на кого и как воздействовать. Этим мы заметно повышаем результативность действий – все наши окошки, напоминалки, рассылки и реклама будут направлены именно на нужную ЦА. Тем, кто готов купить – еще раз напомним. Тем, кто пока не собирается – предложим скидку. Тем, кто уже готов нажать кнопку «оплатить» – попробуем допродать что-нибудь еще.
«К чему приводит использование предиктивных технологий? Вы концентрируетесь на тех аудиториях, которые приносят вам деньги: тех, кто более вероятно совершит покупку, — уточняет Вадим Мамедов». Так или иначе вы даете рекламу в разных каналах. Если эта реклама будет сконцентрирована на высокодоходных сегментах, то ваши показатели: цена клика/перехода, возврат инвестиций, стоимость одного заказа, — все эти показатели кратно улучшатся.
Так, например, компания LC Waikiki, первой протестировавшая технологию AD Audiences, отметила значительный прирост конверсии и улучшение всех показателей во всех каналах: в динамическом ретаргетинге, в обычной контекстной рекламе Google и в веб-пушах.
Если говорить простым языком, вы будете тратить меньше, а зарабатывать с этой рекламы — больше».