Казалось бы, как можно из такой фановой темы как мемы, рассказывать о серьезных вещах вроде Data Analysis и Business Intelligence? На самом деле сложные понятия и процессы довольно просто объясняются мемами. Понятный всем формат шуток помогает разобраться во многих аспектах Data-анализа. Как именно — узнаем из лекции о Data Analysis, которая состоялась в рамках IT-конференции NIX Multiconf.
Этот материал будет полезен тем, кто хочет попробовать себя в качестве аналитика. Опытные специалисты могут взглянуть на хорошо известную тему под необычным углом.
Содержание
1. Что такое big data
2. Как выглядит работа в Data-проекте
3. Каталоги данных – в чем их польза для Data-аналитиков?
3.1 Легкий поиск
3.2 Генерирование каталогами данных Connection Strings
3.3 Для каждого ресурса данных есть много полезной информации
3.4 Глоссарий
4. Что важно знать о дашбордах
5. Делайте интерактивные дашборды
6. Учите пользователей работать с BI-инструментами
7. Как улучшить командную работу над дашбордом
8. Инструменты BI для Data-аналитика
9. Что же делать, когда ваш инструмент BI не позволяет достичь желаемого результата?
Существует много концепций, по которым объясняют этот термин. Эксперты NIX предпочитают схему 8V:
Схема 8V
На практике наиболее важные — объем, скорость и разнообразие данных. Остальные же характеристики немного схожи и просто вносят больше деталей.
Когда вы слышите об аналитике данных, то прежде всего ожидаете, что будете работать с big data. В реальности можно получить несколько больших файлов Excel, которые нужно объединить и использовать как источник данных. Но операции могут быть гораздо сложнее. Например, включать чистку данных и установку связей между файлами.
«Я буду работать с бигдатой» — И здесь тебе дают четыре эксельки в качестве источника данных — «Принимается»
Интересна тенденция. Пандемия COVID-19 вызвала исторические изменения в работе с big data, из-за чего данные могут очень быстро стареть. Это нарушает многие производственные алгоритмы и модели искусственного интеллекта и машинного обучения. Как прогнозируют в исследовании Gartner, к 2025 году 70% мировых компаний сместят фокус с больших данных на малые и широкие. Именно они сокращают зависимость компаний от big data.
Для того чтобы не возникла путаница в понятиях, сразу определимся со значением аббревиатур DBA и BDA.
DBA (Database administrator) используется для определения роли администратора базы данных. BDA (Big Data Analytics) касается аналитики бизнес-данных.
Аналитика бизнес-данных — это набор методов, техник и практик, применяемых для непрерывного изучения, повторения и исследования предварительных и текущих данных о бизнесе. Эта информация позволяет понять, какие данные и действия над ними могут улучшить принятие решений.
Похожие аббревиатуры, но разные значения
Процесс анализа бизнес-данных включает шесть этапов:
1) Определить вопросы, которые необходимо поисследовать.
2) Найти исходные данные — так мы можем получить ответы на первичные вопросы.
3) Фактически анализ данных, в ходе которого может появиться еще больше вопросов. Возможно, вы вернетесь ко второму пункту и измените первые вопросы.
4) Интерпретировать полученные результаты. В этом пункте можно вернуться к истокам первого этапа.
5) Использовать полученные результаты для принятия взвешенного бизнес-решения.
6) Управление стратегией бизнес-знаний на уровне системы — этот этап проходит красной нитью через весь флоу.
После получения всей важной информации следует узнать, есть ли в проекте документация и модели данных, схемы данных или хотя бы из перечисленного?
Иногда аналитики чувствуют себя персонажем мема, приведенного ниже.
Каждый раз на старте нового проекта они скрещивают пальцы и думают: «Может, на этот раз повезет, и у проекта будет актуальная документация или по крайней мере какая-нибудь».
К сожалению, на практике приходится сталкиваться с недостаточно задокументированными проектами.
На проекте будет документация. «Мы делаем проект уже два года» — «То есть у вас есть документация, правда?» – …
Если вы работаете над проектом с самого начала, скажем, год, и вам понадобится изменить определенные бизнес-правила или бизнес-логику — вы можете не запомнить, почему в том или ином месте применили какие-либо правила. Когда это задокументированно, вопросов не возникнет. В противном случае придется потратить время и силы на восстановление этой информации.
Рассмотрим основные типы документации, с которыми вы можете иметь дело на Data-проекте:
В таблице — пример словаря данных. Его шаблоны могут отличаться, но основными столбцами обычно выступают название, определение, тип данных. Иногда даже хранилища данных могут создать такой шаблон. Если у вас разные источники данных, то у них наверняка не будет одинаковой структуры. Поэтому лучше хранить их в одном месте и предоставлять коллегам единый формат. И уже существует инструмент, который поможет вам в этом — каталоги данных.
Каталоги объединяют метаданные об имеющейся big data и помогают настроить процесс управления данными в компании. Самое крутое в каталогах, что они могут создать часть документации для вас.
На этих скриншотах вы можете увидеть несколько экранов из каталога данных Azure. Объясним подробнее его возможности.
В каталоге есть ресурсы данных, с помощью которых можно искать информацию, использовать расширенный поиск или некоторые фильтры и добавлять теги для облегчения поиска. Для каждого источника данных можно найти окно запроса доступа и разместить информацию о всех шагах для получения доступа к этому источнику.
Если организация большая, иногда получение доступа может быть проблемой и может напоминать поиск черного кота в темной комнате. Если же держать всю информацию в одном месте, у вас будет понятная пошаговая инструкция:
Еще одна интересная функция — каталоги данных могут генерировать Connection Strings. В случае с Azure можно подключиться к источнику данных, например в Excel или Power BI. Каталоги не загружают данные непосредственно в Excel, но создают это соединение. После того, как вы добавите учетные данные, сможете получить доступ к самим данным.
К примеру, профили данных, главные свойства полей и т.Д. Мы можем предварительно просмотреть данные, поэтому не нужно устанавливать соединение с источником и выполнять запрос. Просто ищем нужные нам данные и видим, какие типы данных, столбцов, значений. А еще одна интересная вещь — происхождение данных. Вы можете шаг за шагом идти от исходного источника, где получаете данные, к создающему дашборду.
Отдельно хочу сказать о глоссарии. Как уже упоминалось, это важный тип документации. В нем вы можете хранить все свои термины, утверждать их у администратора, добавлять родительские термины для создания определенной иерархии. Можно также связать их с дата-объектами и увидеть поля, в которых можно объединить таблицы между собой.
Как видите, каталоги данных — это действительно удобный инструмент для работы.
Одна из целей работы со стейкхолдерами – сделать их счастливыми 🙂 Но иногда, несмотря на все усилия, добиться этого не удается.
Стейкхолдер всегда будет счастлив — Ты делаешь все по макету клиента — Стейкхолдер: «Как безобразно»
Объясним на примере распространенной ситуации. В команду обращается стейкхолдер с чем-то вроде приведенного ниже мокапа дашборда. Он хочет видеть здесь данные для всех продуктов одновременно. И для каждого из них KPI, столбчатые диаграммы, круговые диаграммы и т.д. Можете сами убедиться, что это не самое лучшее решение…
Мокап дашборда клиента
Проблема состоит в том, что горизонтальная протяженность дашборда достаточно велика. В нем собрано слишком много всего. Обычно аналитики сразу говорят об этом стейкхолдеру. Но часто клиент настаивает на реализации именно по такому макету. После завершения разработки во время демонстрации дашборда, скорее всего, заказчик не будет доволен увиденным и объяснит это примерно так: «Я думал, что все будет не так горизонтально» .
Что делать в такой ситуации:
Посмотрите, как это может выглядеть:
Вариант, который можно создать
Дашборды должны быть понятны и полезны для клиентов. А зрительно красивые дашборды еще и выглядят интереснее. Интерактивность позволит сделать работу с данными более эффективной. Каким образом?
Дашборды будут полезны — «Пользуетесь дашбордами?» — «Нет, только смотрим» — «Красивое»
Перейдем к воплощению интерактивности на примере одного дашборда. Попробуйте следующие популярные функции:
Представьте, что пользователи раньше работали только с некоторыми таблицами Excel или слайдами и диаграммами PowerPoint. Теперь они начали использовать инструмент BI, например Power BI или Tableau. На этом этапе им не нужены все возможные функции. По сути, для своих целей им нужна цифра, которую вы получили из отчетов.
«Модные тулзы с чартами» — «Цифра»
Сначала функции дашбордов могут ошеломить пользователя. Поэтому будьте готовы потратить много времени, чтобы объяснить им все возможности инструментов. Главной целью ваших QA-сессий должна стать демонстрация преимуществ этих тулзов. Вы должны, так сказать, продать им этот инструмент BI.
Также можно создавать инструкции в помощь пользователям. Знакомя их с инструментами BI-аналитики, вы увеличиваете производительность их работы. Безусловно, многое здесь зависит от мотивации. Но готовность инвестировать в них свое время и знания должна быть в политике компании.
Многие аналитики хотят самостоятельно работать над дашбордами, но на практике вы чаще будете сотрудничать с несколькими специалистами. Чтобы работа выполнялась эффективно и все были удовлетворены процессом и общим результатом, приведу несколько жизненных советов.
Я буду самостоятельно работать над дашбордами — Я: «Мои дашборды» — Мой тиммейт: «Имеешь в виду “наши”»?
Первая рекомендация — определите правила по названиям папок, заголовков дашбордов, вычислений и т.п. При проведении параллели с некоторыми методами разработки программного обеспечения мы могли бы организовать серверы Power BI или Tableau в онлайне с папками dev, test и production. Это поможет качественно проводить проверку и развертывать проект в правильной среде, а затем убедиться, что все в порядке. Это также помогает делиться знаниям, особенно если в команде есть новичок. Благодаря четким названиям всех элементов каждый будет уверенно работать с готовыми дашбордами и новыми данными.
Также вы можете попробовать и другие методы программной инженерии:
Сразу скажу: идеального полнофункционального инструмента нет. Иногда при работе с какой-нибудь малоизвестной тулзой вы не можете даже изменить цвета категорий. Хотя у хорошо известных инструментов есть слабые стороны.
К примеру, в Tableau практически нет ETL. Для этого нужно использовать отдельную программу Tableau Prep. Или Looker, один из самых дорогих инструментов BI. В нем вы не можете изменить всплывающие подсказки. Итак, разные инструменты BI служат для разных целей. Их выбор зависит от конкретных задач и условий проекта.
Идеальный функциональный BI-инструмент (которого не существует) — малоизвестная тулза, где ты не можешь даже изменить цвет
Еще одна бесполезная ожидание начинающих: достаточно овладеть одним инструментом, чтобы стать профи. Но в разных проектах вы можете столкнуться с разными тулзами для BI. Когда хорошо разбираетесь в принципах их работы, быстро овладеете любым новым инструментом. В основном у всех них одна логика — на основе SQL и функций перетаскивания.
Ошибки в тулзах всегда будут понятны — «Ну хорошо. Берегите свои секреты!»
Напоследок еще один мем, чтобы вы улыбнулись. Как вы называете этот инструмент BI? Опытные аналитики могут упомянуть многие версии: Таблу, Таблю, Табля и, наконец, Табло.
Улыбнитесь! 🙂
Пошутили, а теперь закончим на серьезной ноте. Вот еще несколько полезных советов от экспертов NIX для работы в Data-проектах:
Прокси (proxy), или прокси-сервер — это программа-посредник, которая обеспечивает соединение между пользователем и интернет-ресурсом. Принцип…
Согласитесь, было бы неплохо соединить в одно сайт и приложение для смартфона. Если вы еще…
Повсеместное распространение смартфонов привело к огромному спросу на мобильные игры и приложения. Миллиарды пользователей гаджетов…
В перечне популярных чат-ботов с искусственным интеллектом Google Bard (Gemini) еще не пользуется такой популярностью…
Скрипт (англ. — сценарий), — это небольшая программа, как правило, для веб-интерфейса, выполняющая определенную задачу.…
Дедлайн (от англ. deadline — «крайний срок») — это конечная дата стачи проекта или задачи…