Эконометрические исследования: ключевые особенности, возможности, ограничения, методология и оценка качества

2024-05-29 10:38:04 Время чтения 13 мин 1729 1

Мы постарались осветить ключевые особенности, связанные с проведением эконометрических исследований: возможности, ограничения, методологию и оценку качества. Также поделимся бенчмарками ROAS для одной из категорий!

Эконометрика – достаточно трудозатратное исследование, которое позволяет сразу решить широкий спектр задач, связанных с маркетингом, а в некоторых случаях является незаменимым выбором. Можно выделить наиболее распространенные цели, которые ставятся маркетологами перед проведением исследования такого типа:

  1. получить обоснованную количественную оценку вклада факторов в целевой показатель;
  2. сравнить ROMI* медиаканалов и выбрать оптимальный маркетинг микс;
  3. рассчитать насыщение медиаканалов и потенциал роста инвестиций;
  4. оценить эффективность разных креативов и силу отложенного влияния 
  1. медиа (adstock);
  2. спрогнозировать будущие продажи или другой KPI на основе различных сценариев;
  3. изучить влияние медиаактивности конкурентов на собственный бизнес.

*ROMI или Return On Marketing Investment – возврат на инвестиции в маркетинг, который рассчитывают по формуле: (доход – расходы на маркетинг) / расходы на маркетинг * 100%

Зачастую результаты такого исследования служат основой для стратегического планирования маркетинговых коммуникаций. Если вы хотите получить ответы на несколько или даже все перечисленные выше вопросы, стоит задуматься об эконометрике.

Основой эконометрики является модель, которая с определенной точностью описывает динамику выбранного показателя (переменной). В качестве зависимой (предсказываемой) переменной в модели можно использовать метрики, которые наиболее важны для бизнеса: продажи, регистрации, посещение веб-сервисов и многие другие. В роли независимых (объясняющих) выступают рекламные коммуникации, макроэкономические изменения, динамика цены, сезонность, промоакции и прочие факторы, характерные для каждой отрасли.

Существует множество алгоритмов Machine Learning и основанных на них библиотек, которые можно использовать для моделирования экономических показателей: линейная регрессия, градиентный бустинг деревьев решений (XGBoost), авторегрессия со скользящим средним (SARIMAX), рекуррентная нейросеть (LSTM), Lightweight MMM от Google, Robyn от Meta и другие.

Линейная регрессия может уступать более сложным алгоритмам в точности прогнозов, но обеспечивает наилучшую интерпретацию модели, т.к. позволяет получить абсолютное значение вклада каждого фактора в целевой показатель. Основной недостаток линейной модели, собственно, линейность, компенсируются предварительным преобразованием некоторых факторов, например, активности в медиаканалах.

Уравнение простой линейной регрессии выглядит так: y = a + b * x, где

y – целевая (зависимая) переменная, например, продажи;

a – значение y, когда x = 0 (константа или базовый уровень);

x – независимая переменная (фактор), влияющая на целевую, например, медиа бюджет;

b – коэффициент линейной регрессии независимого фактора.

Наилучшее уравнение выбирается так, чтобы линия проходила максимально возможно ближе ко всем точкам с помощью метода наименьших квадратов (МНК). Выше приведено уравнение простой линейной регрессии, т.е. рассматривается влияние только одного фактора. В большинстве же случаев уравнение имеет столько пар b и x, сколько значимых факторов было включено в модель – множественная линейная регрессия.

Эконометрика предъявляет сравнительно строгие требования к исходным данным, что подразумевает активное участие не только Исполнителя, но и Заказчика на подготовительном этапе. Если работа непосредственно над моделью занимает 3 – 4 недели, то бывает, что этап сбора данных длится не меньше. Некоторые основные правила и особенности, которые нужно иметь ввиду, чтобы ожидания от исследования и результат совпали:

  1. достаточно длительный период, за который можно собрать исходные данные. Для недельной гранулярности должна быть доступна статистика за три года и более. Если предполагается строить модель на агрегированных по месяцам данных, то нужно иметь доступ к ретроспективе хотя бы за пять лет. Особенно важным это правило становится в условиях макроэкономической нестабильности;
  2. консистентность (однородность) данных для модели. За весь исследуемый период статистика по каждому фактору должна быть выражена в одних и тех же величинах и не иметь пробелов. Средняя конверсия для перевода одной статистики в другую с высокой вероятностью исказит результаты;
  3. все значимые факторы нужно по возможности учитывать в модели. Например, не имеет особого смысла оценивать влияние на продажи только digital-каналов при наличии заметного размещения рекламы товара/услуги еще и на ТВ. Велика вероятность того, что другие факторы заберут часть эффекта от неучтенных и оценки получатся некорректными;
  4. модель не может предсказать результаты воздействия факторов, которых нет в обучающей выборке, то есть, никак ранее не влиявших на бренд. Например, нельзя на основе эконометрики рассчитать, сколько продаж принесет размещение в медиаканале, которого раньше в миксе вообще не было.

Одним из ключевых результатов эконометрического анализа является декомпозиция вклада факторов в модельную оценку независимой переменной. Для полноты картины рассматриваются как положительно влияющие, так и дающие отрицательный вклад факторы: рекламная активность конкурентов, макроэкономические потрясения, эпидемии и другие.

Абсолютную величину вклада каждого фактора можно рассчитать в той же детализации, как исходные данные были заложены в модель, например, по неделям, а потом агрегировать до нужных временных промежутков. Размещение в медиаканалах имеет эффективный объем и точку, после достижения которой увеличение бюджета уже не дает роста продаж или другой целевой метрики – достигается насыщение. Данная зависимость имеет форму кривой, которая для охватных каналов зачастую выглядит S-образной:

  1. На небольшом объеме размещения бренд не может пробиться через рекламный клаттер и стать заметным. Эта часть кривой обычно отсутствует у performance-каналов.
  2. Далее зона эффективного объема, где на единицу изменения величины купленного инвентаря можно получить значительное изменение целевого показателя.
  3. После нее бренд выходит на плато, то есть, увеличивать присутствие в этом медиа уже не имеет смысла и лучше инвестировать в другие каналы.

Кривая насыщения может быть более крутой или пологой, иметь точку перегиба и выходить на плато на меньшем или большем объеме – точные параметры этой зависимости отличаются для разных медиа, категорий, брендов и даже креатива. Одно из главных преимуществ эконометрики – можно достаточно уверенно сказать, какой объем размещения в каждом канале нужен, чтобы достигнуть KPI и какой при этом будет ROAS или CPA.

Полезные цифры

Результаты наших расчетов ROAS (отношение инвестиций в рекламу к полученной от них выручке) с начала 2023 года по белее чем десяти брендам лекарственных препаратов собрали на диаграмме размаха, которую часто называют «ящик с усами». Такой тип диаграмм часто используют в статистике для анализ агрегированных данных. Верхняя и нижняя граница «ящика» обозначают первый квартиль (такое значение, ниже которого только 25% оценок) и третий квартиль (такое значение, выше которой только 25% оценок). Горизонтальная линия между ними является медианой, а крестик – средним значением. «Усы» показывают результаты исследований с минимальным и максимальным значением ROAS по медиа.

Важно отметить, что ROAS зависит от многих факторов: категории, известности бренда, креатива, площадок, buying power, сезонности и других. Найти два бренда с одинаковым ROAS достаточно сложно, но общую картину составить можно. Среди digital-каналов наибольшую отдачу показывает контекстная реклама (поиск и сети). Что касается ТВ, то при сравнительно высоком вкладе в продажи, ROAS размещения в этом канале ниже, чем в digital. Оффлайн медиа работают в большей степени на верх воронки (знание и рассмотрение к покупке) и поддерживает продажи бренда еще и в долгосрочной перспективе.

Ни одна модель не может дать 100% попадание в факт и абсолютно точно предсказать будущее, но есть несколько основных метрик для того, чтобы оценить качество исследования.

  1. MAPE – среднее абсолютное процентное отклонение модели от факта. Рассчитывается отдельно для обучающей и тестовой выборки. Тестовая выборка нужна для того, чтобы проверить модель на данных, которые она «не видела», а значит понять размер ошибки в прогнозах. Размер тестовой выборки обычно составляет 5 – 15% доступных наблюдений.
  2. R2 (R – квадрат, коэффициент детерминации) – доля дисперсии зависимой переменной, которая объясняется выбранными независимыми факторами. Другими словами, это метрика того, насколько хорошо построенная модель описывает реальную картину.
  3. P-value – метрика для проверки гипотезы о наличии статистически значимой связи независимого фактора с зависимой переменной. P-value сравнивается с заранее выбранным уровнем значимости α (альфа). Рассчитывается отдельно для каждого фактора, который есть в модели.

При этом R2, слишком близкий к 100%, говорит скорее о переобучении (подгонке) модели, чем о высоком качестве. Настолько высокий показатель может означать, что модель имеет слабую обобщающую способность и очень ограниченно пригодна для построения прогнозов.

Также рассчитывается ряд дополнительных статистических тестов, где в основе, как правило, лежит нулевая гипотеза, которая на определённом уровне значимости либо принимается, либо отвергается в пользу альтернативной. К наиболее важным тестам и показателям можно отнести:

Близость остатков модели к нормальному распределению – гистограмма распределения ошибок похожа на колокол, но допускается умеренная асимметрия.

  1. Стационарность остатков, т.е. характеристики ошибок не зависят от времени (нет тренда).
  2. Отсутствие автокорреляции остатков – закономерностей, например, длительных повторов знака ошибок, которые могут свидетельствовать о том, что в модели нет играющих важную роль факторов.
  3. RESET-тест Рамсея на правильность спецификации модели, т.е. наличие пропущенных факторов или необходимость дополнительного преобразования переменных.
  4. Коэффициент инфляции дисперсии (VIF) измеряет силу корреляции между независимыми факторами в модели и помогает обнаружить мультиколлинеарность (сильную связь факторов), которая, искажает результаты исследования.

Недостаточно хорошие результаты тестов даже при высоких R2 и MAPE свидетельствуют о том, что полученные в модели оценки для факторов ненадежны.

У эконометрики есть свой «срок годности». Если модель периодически не обновлять, то есть, обучать на свежих данных и включать новые значимые факторы, то со временем результаты ее прогнозов все меньше будут сходиться с фактом. Частота обновления модели зависит от поставленных задач, гранулярности и периодичности выхода данных, появления новых факторов, но рекомендуем обновлять модели не реже чем раз в 9 – 12 месяцев.

В течение года Starlink проводит десятки эконометрических и других исследований как для клиентов нашего медиасервиса, так и компаний, заинтересованных непосредственно в измерении эффективности инвестиций в маркетинг. Будем рады пообщаться и ответить на ваши вопросы!

Категории: Кейсы