Месяц: Июль 2017

Как построить гистограмму.

Как построить гистограмму.

Гистограмма — отличный инструмент визуализации данных, однако у его использования есть свои тонкости, особенно в параметризации.

Aran Lunzer and Amelia McNamara в своей статье подробно и по шагам описывает как правильно построить гистограмму из «кучки данных» (наверху). Причем в качестве иллюстрации используется замечательная интерактивная визуализация, сделанная на D3.js и доступная в исходниках.

1

 

 

Prophet: aнализ временных рядов от Facebook

Prophet: aнализ временных рядов от Facebook

Facebook Research Data Science команда недавно выложила очень интересный инструмент для анализа и прогнозирования временных рядов, опенсорный пакет на R и Python с движком на STAN. Последний является языком и средой для стат-моделирования, и крайне популярен в решении задач на основе Байесианской статистики.

Стандарно при построении прогнозов Prophet выделяет две составляющие:

  1. рост (нелинейный тренд), логистическая модель с изменямоей скоростью с автоопределением моментов изменения.
  2. периодические колебания (сизональность) на разных уровнях — год, месяц, неделя, ряды Фурье

При этом возможен гибкий учет выходных и праздников, простая индикаторная функция.

Prophet работает очень быстро, и не требует глубокого погружения в особенности программирования на STAN. Стандартно для Байесианских инструментов, от аналитика данных ожидается формулирование некоторых (простых) a priori правил и данных из предметной области. При этом коллеги из Facebook предлагают достаточно понятный способ итеративного подхода к моделированию в этой непростой области математики, который предполагает вовлечение человек в процесс на стадиях когда нужно принимат решение на основе понятного и интерпретируемого результата, оставляя сложные оптимизации и оценки внутри.

1

Посмотрим использование Prophet на примере анализа ежедневной частоты рождаемости в США (выполнен fast forward labs) Продолжить чтение «Prophet: aнализ временных рядов от Facebook»

Знакомьтесь: HAL 9000

Знакомьтесь: HAL 9000

На самом деле это панель Driverless AI компании H2O.ai, которую они называют «Экспертной системой AI». На странице замечтательное видео, демонстрирующее ее работу, и визуализарующее основные этапы и параметры построения модели.

Ролик откручивается под симфонию Штрауса «Так говорил Заратустра», что сразу ассоциирует панельку с суперкомпьютером HAL 9000 из «Космической Одиссеи 2001» Кубрика.  Все помнят чем там дело в итоге закончилось? А вот были бы тогда карты GPU навороченные, расчеты на которых эта панелька визуализирует )

Кстати, там же у H2O (которая очень известная и уважаемая компания в data science с  с opensource платформой, смотрим недавний пост с магическим квадрантом) есть видео про скорость glm моделирования на видеокарте NVIDIA DGX-1 против процессора Intel Xeon

1

Моделирование конверсий на данных из Adobe Analytics

Моделирование конверсий на данных из Adobe Analytics

Простой пример  от Trevor Paulsen (Adobe Data Science + Adobe Analytics) как смоделировать вероятность конверсии потребителя в целевое действие. Фактически, статья состоит из двух (на самом деле не сильно связаных) частей. Первая — собственно моделирование логистической регресии на языке R на данных из веб статистики. Вторая — использование функции Segment Compare пакет Adobe Analytics для понимания чем «сконвертировавшиеся» потребители отличаются от «не-сконвертировавшихся».

На мой взгляд, статья в которой баланс «простота vs достоверность» уверенно скатился в простоту. Пройдемся по примеру  Продолжить чтение «Моделирование конверсий на данных из Adobe Analytics»

Магический квадрант Gartner: платформы Data Science

Магический квадрант Gartner: платформы Data Science

Коллеги-маркетологи, поздравляю: Gartner нам (и другим, практикующих data science «не по специальности») придумал название —  «гражданские аналитики данных» (citizen data scientists). И, как нарисовано на картинке вверху, «на нас все держится» ))

Исследование интересно не только собственно ранжированием поставщиков платформ, но и структурированием предметной области, как это обычно делают аналтики Gartner.

301536_0001

Интересен взгляд на важность и роль популярных открытых платформ, например R, Python и Scala, глубокая картинка по критериям оценки платформы и поставщика.

Отлично сформулирована разница между линейными и корпоративными командами аналитиков: за 3-5 лет первые решают 3-20 задач на открытых бесплатных или дешевых платформах, вторые за такой же срок 10-100 задач, с существенными IT инвестициями.

Хорошо написано про рынок в целом, его объемы, перспективы и тренды.

 

Эволюция использования аналитики данных в (digital) компании

Эволюция использования аналитики данных в (digital) компании

На самом деле подход, предлагаемый Fishtown Analytics годится для любой компании, и демонстрирует эволюцию всех составляющих процесса как со стороны разного рода возможностей, так и стороны осознания потребностей и их важности и применимости для бизнеса. Адаптацию этой эволюции к стадиям развития стартапа предлагаю считать аналогией )

Статья хорошая, с объяснениями и примерами. Хотя, на мой взгляд, развитие облачных решений в области аналитики данных, включая готовые к использованию прикладные платформы, позволяют внедрять data science практики на любой стадии развития стартапа.

Предсказание оттока на примере онлайн игр

Предсказание оттока на примере онлайн игр

Предсказание и управление оттоком давно практикуется в «классических CRM-ных индустриях» — финансы, телеком, e-commerce, т.е. везде где есть прямые продажи (D2C, direct to consumers). В классический ритейл управление оттоком пришло вместе с программами лояльности, когда появилась возможность идентифицировать транзакции индивидуальных покупателей.  А с проникновением CRM в массовое сознание маркетологов, задача прогнозирования и управления оттоком стала актуальна для широких слоев «маркетинговой общественности».

Онлайн игры, на мой взгляд, занимают некоторое промежуточное положение между финансами-телекомом и традиционными потребительскими товарами регулярного спроса с точки зрения выстраивания отношений бренда с протребителем. Поэтому представляется интересным опыт игровиков в управлении оттоком, тем более что они готовы им поделиться

Для совсем новичков, забывших математику — вводный рассказ (часовое видео + 38 слайдов) о предсказании специалистами Yandex Data Factory оттока игроков Word of Tanks. Лекция рассчитана на старешклассников 😉

Более глубокая и интересная публикация — довольно старая серия из двух постов 2011 и  2012 года, отток из игры Аион. Много живых деталей, конкретные предикторы и подходы к их проектированию

Интересно также описание типичного пути вхождения специалиста в предметной области в спефицику машинного прогнозирования:

  1. эволюция от «я сам все знаю про игры»,
  2. через «оказывается я не знаю ничего»
  3. и «я наконец понял куда копать» —
  4.  до «вот оно как работает на самом деле»