Автор: David Vachadze

Cиндром самозванца в Data Science: пятничный психоанализ в картинках

Cиндром самозванца в Data Science: пятничный психоанализ в картинках

«Я не настоящий аналитик данных, я самозванец…

  • Я никогда не использовал алгоритмы грубокого обучения, как TensorFlow или Keras.
  • Я никогда не притрагивался к GPU.
  • У меня нет научной степени в computer science или статистике. Я всего лишь получил степень в машиностроении.
  • У не умею программировать на языке R.
  • Но я не сдаюсь. Изучив вакансии, я понял что для того чтобы стать настящим аналитиком данных мне надо всего лишь защитить 5 диссертаций и набрать 87 лет опыта работа по специальности. «

Brandon Rohrer,
MIT Ph.D., Data Scientist @ Facebook, Microsoft, DuPont etc.

being-okay-with-imposter

Синдром самозванца (imposter syndrome, хотя бы раз ощущали 70% людей включая Альберта Эйнштейна) —  это другая крайность эффекта Даннинга-Крюгера, модной темы для обсуждения в Фейсбуке: про соотношение самооценки с реальными способностями и умениями.

krk1r

Однако подавляющее большинство «жертв» синдрома самозванца — абсолютно нормальные люди, хорошие специалисты, открытые к дальнейшему развитию

what-is-imposter-syndrome-1024x506

Так что, на самом деле Вы —
youraregoodenough

Да! Настоящий Аналитик Данных

Диалоги Star Wars в виде арочной диаграммы и другие находки каталога DataVizProject

Диалоги Star Wars в виде арочной диаграммы и другие находки каталога DataVizProject

Визуализация данных — очень важный аспект работы аналитика данных, обычно достигает своего апогея в критические и судьбоносные моменты питча на совете директоров или защиты бюджета у руководителя. Кроме того, часто визуализация — это уже практически арт, равнозначно вдохновляющий  разум и чувства, который вполне можно повесить на стену в модном клубе или на потолок холостяцкой спальни.

Замечательный и очень прикладной каталог форматов визуализации DataVizProject с реальными примерами собрали ребята из датского агентства Ferdio.

Каталог позволяет выбрать формат визуализации:

  • под требуемую задачу визуализации (демонстрация тренда по времени, визуализация концепции, демонтрация корреляций, распределения, географичские данные и пр.),
  • тип данных (колонки-строчки-данные-количества…)
  • тип визуализации (график, диаграмма, таблица и пр.)
  • и даже «форму» (интересная штука, «эта картинка стиля треугольников или гексагонов?»)
Ошибки первого и второго рода

Ошибки первого и второго рода

Ошибки первого рода (ложное срабатывание, уровень значимости, альфа-ошибка, false positive) и второго рода (пропуск события, бета-ошибка, связанная с ней мощность критерия = 1-бета, false negative) часто используются в разных подходах статистики и аналитики данных. Начиная с проверки гипотез (привет A/B/n тестированию) и заканчивая чувствительностью и специфичностью моделей машинного обучения, и множеством других часто употребляющихся терминов, общий смысл которых интуитивно кажется понятным, но четкая формулировка иногда может и удивить )

На англоязычной википедии есть отличная статья-шпаргалка с определениями и понятными каринками, ее хорошо не то чтобы вычуить наизусть, но в закладки точно добавить! Ниже сильно сокращенная версия одной из картинок с совсем основными понятиями:

wikipedia_table

6.5% маркетингового бюджета американские CMO потратили на аналитику данных в 2016 году

6.5% маркетингового бюджета американские CMO потратили на аналитику данных в 2016 году

Университет Villanova опубликовал интересную инфографику под назаванием, вынесенным в титульную картинку. Помимо эпических 6.5% бюджета, еще из особо интересного:

  • 38% маркетологов включают аналитику больших данных в топ 5 задач, при этом 21% считает ее единственным и наиболее важным конкурентным преимуществом
  • в качестве источников данных 51% указали CRM системы, 39% — email коммуникацию
  • 29% маркетологов заявили что аналитика помогла увеличить продажи более чем на 26%

Много других полезных и интересных цифр, а также список источников, в инфографике ниже Продолжить чтение «6.5% маркетингового бюджета американские CMO потратили на аналитику данных в 2016 году»

Log-трансформация денежных переменных

Log-трансформация денежных переменных

Данные, имеющие денежную природу, оставляют существенную часть маркетинговых датасетов — это покупки, доходы, траты, остатки, LTV и прочее. При том работать с этими данными часто не очень удобно — у них как правило ассиметричное (ненормальное) распределение с невыровненной вариацией, сильно скошенное вправо, и явно нелинейно (мультипликативно) по своей природе. Это сразу усложняет использование таких популярных интерпретируемых моделей как линейная и логистическая регрессия, затрудняет визуализацию.

В работе с такого рода данными обычно применяют трансформации, т.е. преобразования данных, в результате которых они становятся «нормально»-распределенными. Обобщая, можно выделить два базовых подхода:

  1. Двух-параметрическая трансформация Box-Cox, частными случаями которой являются популярные транформации логарифм и квадратный корень
  2. Гиперболический арксинус (IHS, inverse hyperbolic sine)

Эти транформации кратко но емко (применительно к нашей задаче) описаны например тут.

Для работы с денежными данными логично выбрать лог-трансформацию вида log10(1+x).

  • Десятка в основании логарифма используется для удобства, деньги привыкли округлять степенями 10-ки (тысячи, миллионы, кому как удобней).
  • добавляя единицу к переменной мы решаем пробему нулевых данных (0 рублей), как известтно логарифм нуля = минус бесконечность. Добавив же единичку, мы не сильно испортили «вид» трансформированных данных, но преобразование 0 по такой формуле приводит к нулю, логарифм 1 = 0.

Итак, мы решили задачу «нормализации», разобрались как корректно учесть 0, а как быть с отрицательными велиинами, например отрицательный денежный поток или убыток или овердрафт на счете? Помочь нам может так называемый «логарифм со знаком» или signed log. Все очень просто — мы «вытаскиваем» знак наружу из-под логарифма, [т.е. буквально log(-5) -> -log(5)], не забывая при этом корректно обрабатывать ноль. Итого мы получаем итогое преобразование вида:

sign(x) * log10(1+abs(x))

которое можно копировать например в R и начинать новую жизнь с денежными переменными

i_hate_math_will_make_you_mad2

Моделирование маркетинг микса: начинаем с оптимизации бюджета

Моделирование маркетинг микса: начинаем с оптимизации бюджета

Jessica Langford из Adobe Global Consulting рассказывает как оптимизировать бюджет на рекламную активность в простом случае — имейл рассылки, один канал,  прозрачные затраты и доходы. На всякий случай — оптимизировать означает не уменьшить, а именно оптимизировать, что совсем не одно и то же, как мы убедимся.

Из интересного:

  • Почему не стоит использовать линейную регрессию на линейно выглядящих данных в данном случае? Например потому что эффективность маркетинга не может расти бесконечно )
  • Как учесть другие реалии маркетинга типа насыщения рынка, падения эффективности рекламы и пр.? Использовать модели убывающей доходности (diminishing return), например в случае рекламы (для стабильных рынков) часто используют нелинейную модель ADBUDG
  • Использование оптимизационных возможностей R, как класса, на примере простой функции nlminb() встроенного пакета {stats}

 

 

Как вычислить ботов в трафике сайта

Как вычислить ботов в трафике сайта

Уже знакомый нам Тревор Полсен из Адобе Маркетинг Клауд проделал упражнения на идентификацию ботов для фильтрации из базовой аналитики сайтов.

Проблема ботов, на самом деле, чрезвычайно актуальна везде, включая Россию. Согласно отчету за 2016 год  Imperva Incapsula, для сайтов с дневным трафиком от 100K пользователей, около трети этого трафика на самом деле формируют боты.

Ботов автор в свою очередь подразделяет на:

  1. Простых и тупых, которые просто сгружают контент веб-страниц, даже не выполняя скрипты (java script) на странице, и кстати таким образом не попадающие в некоторые системы аналитики.
  2. Хороших, например поисковые машины, мониторинги сайтов, агрегаторы и др. Эти боты умные, скрипты выполняют, и честно про себя рассказыват — т.е. отдают в идентификаторах UA (user agent, человеко-читаемая строка идентификатора браузера) информацию про себя.
  3. Плохих. Эти шифруются, прячут идентификаторы включая айпишники, ну или просто нагло врут. Большая часть таких ботов — это имперсонаторы, используются для наркуток рекламы или DDoS атак, кроме того это спаммеры, воришки контента, хакерские радары и пр.

Большинство индустриальных (платных) систем аналитики позволяют автоматически отфильтровывать таких роботов, есть специализированные сервисы в том числе в России, а например IAB поддерживает актуальный список индетификаторов ботов, на который можно подписаться за какие-то $14,000 в год.

В общем, если пользоваться сильно-платными опциями не хочется, или нужно самостоятельно поработать с трафиком за пределами функционала традиционной веб-аналитики, можно начать с подхода, описанного в статье.

Из интересного —  забавное использование линейной регресии, в частности праметра R2 (r squared) для вычисления «нечеловечески линейной регулярности» в данных. А также уже упоминавшееся использование R библиотеки sparklyr, которая позволяет из R управлять работой SPARK кластера, что безусловно понадобится если работу в ботами ставить в продакшен. Кстати, такой кластер можно так же просто поднимать в облаке Google Cloud Dataproc, что в совокупности с размещением RStudio в Google Could позволяют создать замечательную масштабируемую под задачи архитектуру data science в облаке, с минимизацией DevOps (если понятно сильно меньше 50% слов, обращайтесь в Brand Mobile, поможем)