Как вычислить ботов в трафике сайта

Как вычислить ботов в трафике сайта

Уже знакомый нам Тревор Полсен из Адобе Маркетинг Клауд проделал упражнения на идентификацию ботов для фильтрации из базовой аналитики сайтов.

Проблема ботов, на самом деле, чрезвычайно актуальна везде, включая Россию. Согласно отчету за 2016 год  Imperva Incapsula, для сайтов с дневным трафиком от 100K пользователей, около трети этого трафика на самом деле формируют боты.

Ботов автор в свою очередь подразделяет на:

  1. Простых и тупых, которые просто сгружают контент веб-страниц, даже не выполняя скрипты (java script) на странице, и кстати таким образом не попадающие в некоторые системы аналитики.
  2. Хороших, например поисковые машины, мониторинги сайтов, агрегаторы и др. Эти боты умные, скрипты выполняют, и честно про себя рассказыват — т.е. отдают в идентификаторах UA (user agent, человеко-читаемая строка идентификатора браузера) информацию про себя.
  3. Плохих. Эти шифруются, прячут идентификаторы включая айпишники, ну или просто нагло врут. Большая часть таких ботов — это имперсонаторы, используются для наркуток рекламы или DDoS атак, кроме того это спаммеры, воришки контента, хакерские радары и пр.

Большинство индустриальных (платных) систем аналитики позволяют автоматически отфильтровывать таких роботов, есть специализированные сервисы в том числе в России, а например IAB поддерживает актуальный список индетификаторов ботов, на который можно подписаться за какие-то $14,000 в год.

В общем, если пользоваться сильно-платными опциями не хочется, или нужно самостоятельно поработать с трафиком за пределами функционала традиционной веб-аналитики, можно начать с подхода, описанного в статье.

Из интересного —  забавное использование линейной регресии, в частности праметра R2 (r squared) для вычисления «нечеловечески линейной регулярности» в данных. А также уже упоминавшееся использование R библиотеки sparklyr, которая позволяет из R управлять работой SPARK кластера, что безусловно понадобится если работу в ботами ставить в продакшен. Кстати, такой кластер можно так же просто поднимать в облаке Google Cloud Dataproc, что в совокупности с размещением RStudio в Google Could позволяют создать замечательную масштабируемую под задачи архитектуру data science в облаке, с минимизацией DevOps (если понятно сильно меньше 50% слов, обращайтесь в Brand Mobile, поможем)

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google photo

Для комментария используется ваша учётная запись Google. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s