Социальные медиа — один из самых полезных источников информации для исследования современного потребителя. Как люди воспринимают бренд, в каких ситуациях используют продукт, какие тренды сегодня набирают обороты — мы можем послушать развернутые мнения в реальном времени практически на любую тему. Нужно только настроить систему мониторинга, и миллионы упоминаний становятся доступны для анализа.
Но как не утонуть в этом массиве слабоструктурированных данных и не упустить ценную информацию? Возможно ли ускорить работу по поиску инсайтов в огромном потоке сообщений и каким образом?
Об эффективных методах текстового анализа, распознавании объектов в видеоконтенте и о том, что случается, когда в мир аналитики соцмедиа врываются data scientists, рассказывают Лилия Мусина (Analytics & Insights Director Publicis Groupe Russia) и Михаил Степнов (Head of Advanced Analytics Publicis Groupe Russia).
Зачем мы это делаем
Чаще всего мы проводим социальный медиаанализ в связке с ML-алгоритмами для решения трех типов задач:
1) определение ситуаций потребления и аудиторных сегментов (которые дальше служат основой для коммуникационных и таргетированных решений);
2) проверка и детализация стратегических гипотез (например, действительно ли ЗОЖ приобретает более осознанный подход, какие тенденции выражены сильнее?);
3) и, пожалуй, самый животрепещущий вопрос: какой контент публиковать — какие элементы в тексте, картинке и даже в видео больше всего влияют на вовлеченность пользователя?
Раньше для этих целей медиааналитики вычитывали небольшую выборку сообщений и, как итог, выдавали условный набросок идей на заданную тему. Теперь с помощью машинного обучения мы получаем полноценный качественный и количественный анализ.
Beyond the data we go: как мы работаем с текстами из соцмедиа
Прежде всего хочется отметить, что нам «повезло» — мы разговариваем на русском языке. Он входит в четвертую категорию сложности изучения — в среднем не носителю языка нужно потратить около 1100 часов, чтобы научиться относительно свободно разговаривать на русском. Сложнее только языки с иероглифической знаковой системой.
Что же нужно делать, чтобы облегчить работу со сложным текстовым массивом?
- Главное — не паниковать.
- Убрать из массива цифры, имена, предлоги (при этом не исключать частицу «не»).
- Привести все слова к исходным формам и исключить нерелевантный контент из массива данных (спам, рекламу, ненормативную лексику и пр.).
Михаил Степнов, Head of Advanced Analytics Publicis Groupe Russia:
На мой взгляд, удаление ненормативной лексики в такого рода анализе часто неоправданно, так как могут потеряться важные для заказчика инсайты. Как сказал классик нашего времени: «Мат есть главная жемчужина великого русского языка». Другой вопрос — публиковать результаты анализа в корректных формулировках, и с этим уже должен справляться человек.
Техники текстового и визуального анализа
1. Первый метод — кластеризация, т. е. разделение текстов на однородные, связанные между собой группы.
В этом методе есть очевидная проблема. Кластеры создают машины (это т. н. unsupervised learning), и по какому принципу они сформированы, по умолчанию неизвестно. Каждый раз это новая история, которая нуждается в интерпретации человеком.
2. Другой метод — расчет связей слов. Он показывает, с какой частотой и вероятностью одно слово употребляется в паре с другим.
Здесь тоже важно быть на страже здравого смысла — например, мы можем получить стопроцентную связь между словами «Путин» и «краб». Никакой политики: если во всем массиве комментариев слово «краб» упоминается один раз и встречается в предложении «Путин ездил на Камчатку и ел камчатского краба», то «крабу» больше не за что зацепиться.
3. Третья техника — это распознавание объектов на изображениях и видео. Нейросеть способна идентифицировать объекты в кадрах и проанализировать, какой набор элементов дает наибольшее влияние на целевой показатель (engagement rate, ad recall и др.).
Case study: реальные примеры
1. Для одного бренда необходимо было выявить ситуации, в которых люди испытывают стресс. Мы собрали все публичные сообщения по теме (это около 150 тыс. упоминаний) и применили к ним метод кластеризации. На выходе у нас получилось девять оцифрованных и приоритизированных источников стресса.
Прелесть метода в том, что:
а) машина за несколько минут обработала и сгруппировала огромный массив данных;
б) смогла показать неочевидные ситуации стресса — например, отказ от курения и проблемы лишнего веса.
Лилия Мусина, Analytics & Insights Director Publicis Groupe Russia:
Если бы аналитик выполнял поиск самостоятельно, он вряд ли бы назвал эти ситуации причинами стресса (особенно если сам с ними не сталкивался). Машина же не полагается на личный опыт и показывает абсолютно все, даже небольшие сегменты.
2. Второй кейс — проверка гипотезы о том, что ЗОЖ становится осознанней и системней, чем это было раньше. Мы собрали две базы упоминаний — за 2014 и 2019 годы — и отдельно по каждой рассчитали вероятность встречаемости фразы ЗОЖ с другими словами.
В 2014 году вместе со словами ЗОЖ были популярны такие сочетания, как «быстро похудеть», «модно похудеть», то есть быстродействующие и далеко не здоровые приемы. В высокой связке также находились слова «гастрит», «варикоз», «язва» — здоровый образ жизни больше ассоциировался с лечением болезней, чем с превентивными мерами. Из спортивной тематики было только одно слово — «фитнес», причем в очень небольшой связи (коэф. 0.54, колеблется от нуля до одного, и чем выше к единице, тем выше связь).
В 2019 году ситуация изменилась. Появились сочетания ЗОЖ с «правильное питание», «здоровое питание». Не «быстро» и «модно», а «правильно» и «здорово». Сильно поднялась спортивная тематика (коэф. 0.89) со словами «спорт», «фитнес», «спортзал». Добавились общие идеи: «красота», «мотивация», чего не было в первом периоде. Такой подход позволяет подтверждать или опровергать любые гипотезы и преподносить их не как мнение, а как факт, подтвержденный цифрами на основе большой базы данных.
3. И последний кейс с оценкой эффективности контента. У нас было большое количество рекламных роликов по всем рекламодателям телеком-категории и показатель, характеризующий их эффективность (в нашем случае — ad recall). Мы прогнали ролики через предобученную нейросеть, которая собирала все объекты на кадрах видео и связывала их с целевой переменной. Результат оказался неожиданным: наиболее значимо на узнаваемость рекламы в телеком-индустрии влияет цветовая гамма видео — чем больше ярких теплых цветов на экране, тем лучше.
Что в итоге
Связывать Data Science с маркетингом можно и нужно. Это путь, которым активно идем мы, Publicis Groupe Russia, и рекомендуем идти другим.
Все методы текстового анализа довольно просты, они описаны в открытых источниках и доступны всем для применения в работе. Важно знать, где и как использовать их наиболее эффективно.
Это история не про замену человека машинным обучением, а про то, как облегчить и ускорить исследовательскую работу, сделать ее более продвинутой. Потому что эффективность — не в отдельно взятых машинных инструментах и не в отдельной команде, а в синергии работы профессиональных и увлеченных своим делом людей и правильных методов машинного обучения.