Метка: corr

Как вычислить ботов в трафике сайта

Как вычислить ботов в трафике сайта

Уже знакомый нам Тревор Полсен из Адобе Маркетинг Клауд проделал упражнения на идентификацию ботов для фильтрации из базовой аналитики сайтов.

Проблема ботов, на самом деле, чрезвычайно актуальна везде, включая Россию. Согласно отчету за 2016 год  Imperva Incapsula, для сайтов с дневным трафиком от 100K пользователей, около трети этого трафика на самом деле формируют боты.

Ботов автор в свою очередь подразделяет на:

  1. Простых и тупых, которые просто сгружают контент веб-страниц, даже не выполняя скрипты (java script) на странице, и кстати таким образом не попадающие в некоторые системы аналитики.
  2. Хороших, например поисковые машины, мониторинги сайтов, агрегаторы и др. Эти боты умные, скрипты выполняют, и честно про себя рассказыват — т.е. отдают в идентификаторах UA (user agent, человеко-читаемая строка идентификатора браузера) информацию про себя.
  3. Плохих. Эти шифруются, прячут идентификаторы включая айпишники, ну или просто нагло врут. Большая часть таких ботов — это имперсонаторы, используются для наркуток рекламы или DDoS атак, кроме того это спаммеры, воришки контента, хакерские радары и пр.

Большинство индустриальных (платных) систем аналитики позволяют автоматически отфильтровывать таких роботов, есть специализированные сервисы в том числе в России, а например IAB поддерживает актуальный список индетификаторов ботов, на который можно подписаться за какие-то $14,000 в год.

В общем, если пользоваться сильно-платными опциями не хочется, или нужно самостоятельно поработать с трафиком за пределами функционала традиционной веб-аналитики, можно начать с подхода, описанного в статье.

Из интересного —  забавное использование линейной регресии, в частности праметра R2 (r squared) для вычисления «нечеловечески линейной регулярности» в данных. А также уже упоминавшееся использование R библиотеки sparklyr, которая позволяет из R управлять работой SPARK кластера, что безусловно понадобится если работу в ботами ставить в продакшен. Кстати, такой кластер можно так же просто поднимать в облаке Google Cloud Dataproc, что в совокупности с размещением RStudio в Google Could позволяют создать замечательную масштабируемую под задачи архитектуру data science в облаке, с минимизацией DevOps (если понятно сильно меньше 50% слов, обращайтесь в Brand Mobile, поможем)

Корреляция, причинность и p-значения

Корреляция, причинность и p-значения

Извечная тема — все знают, что корреляция двух переменных не означает что между ними есть причинно-следственная связь, и тем не менее все продолжают делать выводы вида «длина волос у девушек коррелирует с окружностью бедер с p-значением (p-value) = 0.001, ну значит точно надо всем девушкам отпускать волосы, и с фигурой все будет отлично!». Ага, если бы все было так просто )

Как на самом деле может выглядеть связь между коррелирующими переменными, и чем это может быть вызвано, рассказывает в небольшой бесплатной книжке  Lee Baker,  описывающий себя как «физик, статистик и программист, дитя цветов психоделических 60-тых, удивительно как получившийся вполне нормальным» ))

Кстати, о физиках и p-значениях.

Jeff Leek из Школы Бионформатики университета Джонса Гопкинса собрал в пакет tidypvals  около 2.5 миллиона опубликованых в различных исследованиях p-значения из 25 научных направлений. Вот как выглядит картина в модном ныне джойплоте (joyplot)

28619649-6127b58a-71d7-11e7-82f0-3c911ce7d1f0

Первый пик в районе 0 — ок, да. А вот второй пик к районе 0.05, ровненько на традиционной границе отсечения по критерию стат-достоверности?? Это типа наука так делается?

Кстати, маркетологи (которые внутри направления Economics) — красавчики, у них одних на этом графике нет второго пика, только вокруг нуля. А вот как у «информатиков, математиков и физиков» второй пик на 0.05 получился выше чем первый на 0 — не понимаю. Разве что информатики накосячили? ))

Два подхода к визуализации даных

Два подхода к визуализации даных

Корреляционная матрица — это довольно информационно-емкий объект, и существует много способов его визуализации. Выбрав два экстремальных примера, справа и слева — с каким вариантов приятней работать?

В качестве примера используется популярный в сообществе R набор данных (dataset) mtcars, и исследуется корреляция параметра расхода топлива MPG (miles per gallon, миль проезда на галлон топлива) в зависимости от других параметров, в частности carb (количество карбюраторов), hp (мощность в лошадиных силах), cyl (количество цилиндров) и disp (объем двигателя) Продолжить чтение «Два подхода к визуализации даных»