Месяц: Сентябрь 2017

Cиндром самозванца в Data Science: пятничный психоанализ в картинках

Cиндром самозванца в Data Science: пятничный психоанализ в картинках

«Я не настоящий аналитик данных, я самозванец…

  • Я никогда не использовал алгоритмы грубокого обучения, как TensorFlow или Keras.
  • Я никогда не притрагивался к GPU.
  • У меня нет научной степени в computer science или статистике. Я всего лишь получил степень в машиностроении.
  • У не умею программировать на языке R.
  • Но я не сдаюсь. Изучив вакансии, я понял что для того чтобы стать настящим аналитиком данных мне надо всего лишь защитить 5 диссертаций и набрать 87 лет опыта работа по специальности. «

Brandon Rohrer,
MIT Ph.D., Data Scientist @ Facebook, Microsoft, DuPont etc.

being-okay-with-imposter

Синдром самозванца (imposter syndrome, хотя бы раз ощущали 70% людей включая Альберта Эйнштейна) —  это другая крайность эффекта Даннинга-Крюгера, модной темы для обсуждения в Фейсбуке: про соотношение самооценки с реальными способностями и умениями.

krk1r

Однако подавляющее большинство «жертв» синдрома самозванца — абсолютно нормальные люди, хорошие специалисты, открытые к дальнейшему развитию

what-is-imposter-syndrome-1024x506

Так что, на самом деле Вы —
youraregoodenough

Да! Настоящий Аналитик Данных

Диалоги Star Wars в виде арочной диаграммы и другие находки каталога DataVizProject

Диалоги Star Wars в виде арочной диаграммы и другие находки каталога DataVizProject

Визуализация данных — очень важный аспект работы аналитика данных, обычно достигает своего апогея в критические и судьбоносные моменты питча на совете директоров или защиты бюджета у руководителя. Кроме того, часто визуализация — это уже практически арт, равнозначно вдохновляющий  разум и чувства, который вполне можно повесить на стену в модном клубе или на потолок холостяцкой спальни.

Замечательный и очень прикладной каталог форматов визуализации DataVizProject с реальными примерами собрали ребята из датского агентства Ferdio.

Каталог позволяет выбрать формат визуализации:

  • под требуемую задачу визуализации (демонстрация тренда по времени, визуализация концепции, демонтрация корреляций, распределения, географичские данные и пр.),
  • тип данных (колонки-строчки-данные-количества…)
  • тип визуализации (график, диаграмма, таблица и пр.)
  • и даже «форму» (интересная штука, «эта картинка стиля треугольников или гексагонов?»)
Ошибки первого и второго рода

Ошибки первого и второго рода

Ошибки первого рода (ложное срабатывание, уровень значимости, альфа-ошибка, false positive) и второго рода (пропуск события, бета-ошибка, связанная с ней мощность критерия = 1-бета, false negative) часто используются в разных подходах статистики и аналитики данных. Начиная с проверки гипотез (привет A/B/n тестированию) и заканчивая чувствительностью и специфичностью моделей машинного обучения, и множеством других часто употребляющихся терминов, общий смысл которых интуитивно кажется понятным, но четкая формулировка иногда может и удивить )

На англоязычной википедии есть отличная статья-шпаргалка с определениями и понятными каринками, ее хорошо не то чтобы вычуить наизусть, но в закладки точно добавить! Ниже сильно сокращенная версия одной из картинок с совсем основными понятиями:

wikipedia_table

6.5% маркетингового бюджета американские CMO потратили на аналитику данных в 2016 году

6.5% маркетингового бюджета американские CMO потратили на аналитику данных в 2016 году

Университет Villanova опубликовал интересную инфографику под назаванием, вынесенным в титульную картинку. Помимо эпических 6.5% бюджета, еще из особо интересного:

  • 38% маркетологов включают аналитику больших данных в топ 5 задач, при этом 21% считает ее единственным и наиболее важным конкурентным преимуществом
  • в качестве источников данных 51% указали CRM системы, 39% — email коммуникацию
  • 29% маркетологов заявили что аналитика помогла увеличить продажи более чем на 26%

Много других полезных и интересных цифр, а также список источников, в инфографике ниже Продолжить чтение «6.5% маркетингового бюджета американские CMO потратили на аналитику данных в 2016 году»