Когда алгоритм «многоруких бандитов» может стать альтернативой А/В-тестам

2022-05-31 15:32:44 Время чтения 11 мин 1223 1

В условиях, когда большинство зарубежных площадок стали недоступны, рекламодатели ищут точки роста в рамках текущих кампаний или пробуют новые инструменты. Все новое, как правило, тестируется на небольших объемах и при положительных результатах масштабируется. 

Антон Голосниченко, Директор по технологиям Artics Internet Solutions, рассказал о методах тестирования кампаний, которые мы используем в агентстве, их особенностях и также, в каких случаях какой метод лучше использовать. 

Источник: towardsdatascience.com

Классический метод проверки гипотез — А/В-тестирование 

В поисках точек роста и возможности повысить эффективность кампаний большинство рекламодателей регулярно тестируют группы аудиторий, рекламные сообщения, заголовки, креативы, форматы. Как правило, для определения наиболее эффективного варианта используется метод А/В-тестирования. 

Как работает А/В-тестирование 

Суть метода заключается в том, что он позволяет сравнить эффективность тестируемых вариантов при соблюдении одинаковых условий. Сначала формируется гипотеза: например, баннер А даст большую конверсию, чем баннер В. Затем проводится тест на оба баннера с соблюдением аналогичных условий: схожих по объему и составу выборок аудитории. Для расчета объема выборок можно использовать специальные калькуляторы

В тесте участвуют все варианты до тех пор, пока не будет собран объем данных, достаточный для достижения статистической значимости, который позволит сделать достоверный вывод об эффективности того или иного варианта. Чтобы эксперимент был чистым, рекомендуем выбрать одну переменную для проверки. 

Рис.1. Как проходит классический А/В-тест

После того, как наиболее эффективный баннер определен, он применяется в кампаниях always-on формата, а проигравший вариант больше не используется. При необходимости оптимизировать кампании или искать точки роста и далее, процесс начинается заново: снова формируются гипотезы, запускаются эксперименты и определяются победители.

Особенности метода 

Главное преимущество метода А/В-тестирования в том, что он даёт статистически достоверные данные, на базе которых можно принимать решения. И поэтому тесты используют, когда нужно проверить выдвинутую гипотезу или выделить самый эффективный вариант — даже ценой потери части конверсий. Метод также используют тогда, когда есть достаточный срок для сбора данных — например, в рамках регулярных кампаний. 

Метод довольно простой и понятный в применении: при одинаковых условиях тестируются два показателя, спустя какое-то время сравниваются результаты. Проведение тестов не требует дополнительных разработок со стороны команды, а инструментарий, необходимый для тестирования, доступен на большинстве рекламных площадок. К тому же, тесты универсальны: их можно использовать большинству рекламодателей как с долгим, так и с коротким циклом покупки и в рамках разных задач: для тестирования баннеров, текстов, UX-элементов сайта и много другого.

Однако в работе с методом есть некоторые сложности. Например, при параллельном тестировании двух и более вариантов часть бюджета расходуется на те, что в ходе эксперимента показывают себя как неэффективные. И чем больше таких вариантов — тем больше на них может быть расход.

Рис. 2. При параллельном тестировании 10 элементов — например, баннеров или аудиторий часть бюджета может расходоваться неэффективные тестовые элементы или группы

Кроме того, статистически значимые данные будет сложно накопить, если тест проводится в сжатые сроки или объема трафика рекламодателя недостаточно. Поэтому А/В-тесты могут показывать меньшую достоверность в короткие акции типа «Черной пятницы» или при использовании малым, суперлокальным бизнесом. 

Подобные минусы А/В-тестирования можно нивелировать в рамках другого подхода, в основе которого лежит метод «многоруких бандитов» — Multi-Armed Bandits. 

Альтернатива А/В-тестам: метод «многоруких бандитов» и сэмплирование Томпсона

Эксперименты по методу А/В тестирования и с использованием сэмплирования Томпсона начинаются одинаково: на первом этапе одновременно работают все тестируемые варианты для того, чтобы получить исходную оценку эффективности для каждого варианта в виде бета-распределения вероятности конверсии. 

И дальше алгоритм начинает работу по принципу динамического распределения трафика: инструменты машинного обучения с определенным интервалом времени определяют, насколько один из тестируемых вариантов эффективнее другого и перенаправляют на него большую часть трафика, не дожидаясь достижения статистической значимости. Это позволяет оптимизировать расход бюджета на менее эффективные варианты теста и провести эксперимент в сжатые сроки. 

Рис. 3. Схема сравнения механики А/В-тестирования и тестирования по методу «мнгоруких бандитов»

И А/В-тесты, и тесты по алгоритму сэмплирования Томпсона позволяют оптимизировать кампании и повысить их эффективность, но делают это разными способами: первые за счет глубокого исследования вариантов для ответа на гипотезу, вторые — за счет максимизации ключевых метрик в процессе исследования вариантов. 

Важно отметить, что алгоритмы метода «многоруких бандитов» рекламодатель должен внедрять самостоятельно с помощью data science-команды, которая будет разрабатывать технические средства для применения алгоритма на площадках: например, писать код, который бы включал или выключал баннеры или кампании на основе алгоритма. 

Таким образом, отличия двух подходов можно отразить следующим образом: 

Схема работы сэмплирования Томпсона 

Рассмотрим механику работы алгоритма на примере. Необходимо протестировать 3 варианта баннеров и выбрать баннер с наивысшей конверсией в покупку. Каждый раз, когда пользователь кликает по баннеру — начинается раунд (показ баннера).

Каждый раунд n, баннер i дает награду ri(n) ∈ {0,1}: ri(n) = 1, если пользователь совершает конверсию после клика по баннеру i, и если пользователь не совершает конверсию, то  ri(n) = 0.

Этапы работы алгоритма будут выглядеть следующим образом:

Шаг 1. Каждый раунд n определяется два показателя для каждого баннера i:

  1. N1(n) — сколько раз баннер i получал выигрыш до раунда n (т.е. число конверсий);
  2. N0(n) — сколько раз баннер i не получал выигрыш до раунда n (т.е. число кликов минус число конверсий).

Шаг 2. Для каждого баннера i мы выбираем случайное значение из бета-распределения вероятности клика по баннеру:

Шаг 3. Показываем баннер с наивысшим θi(n). 

Так сэмплирование Томпсона позволит одновременно обеспечить показ всех вариантов баннеров за счет случайной выборки из бета-распределений, решив таким образом задачу исследования и накопления данных. А также использует только баннер с максимальным значением из выборок, решив задачу максимизации ключевой метрики. 

Особенности алгоритма и кому может подойти

Такой подход будет работать для всех типов рекламодателей, но мы особенно рекомендуем протестировать алгоритм на проектах, где стоимость конверсий высока, а цикл продажи может составлять недели или месяцы. В таких случаях достаточный для достижения статистической значимости объем данных может набираться долго, и качественный эксперимент может дорого стоить. Сэмплирование же Томпсона позволяет оптимизировать эти расходы и достигнуть ключевых показателей практически сразу. 

Метод может применяться не только для оптимизации отдельных кампаний, но и лечь в основу целых маркетинговых продуктов. Например, в одном из наших продуктов – платформы для продвижения мобильных приложений Wizeo – метод «многоруких бандитов» стал частью трехуровневого модуля оптимизации. И в комплексе с остальными технологиями (AI-оптимизация, антифрод и автоматизированное тестирование креативов) позволяет значительно снизить расход бюджета на менее эффективные гипотезы в процессе теста. 

Алгоритм будет также полезен, если нужно оптимизировать конверсии для коротких промоакций или при низком объеме трафика. К тому же, метод позволяет оптимизировать кампании непрерывно — можно постоянно добавлять новые тестируемые элементы, и коэффициент конверсии от этого не снизится. 

Если же нужно провести достоверное исследование гипотезы и получить статистически значимый результат, метод «многоруких бандитов» точно не подойдет — в большей степени алгоритмы направлены на максимизацию метрик, а не достижение однозначной статистической значимости. 

Вывод

И А/В-тесты, и сэмплирование Томпсона позволяют повышать эффективность кампаний, но делают это разными способами. Если в рамках А/Б-тестирования мы получаем данные и можем получить однозначный ответ на выдвинутую гипотезу, то алгоритм сэмплирования Томпсона позволяет в текущем моменте понять, какая переменная работает эффективнее всего, и перераспределить на нее бюджет. И оба метода могут быть альтернативой другу другу в разных ситуациях.