Хочу в Big Data: с чего начать свой путь? Часть 1.

22 июля 2021

Каждый раз, когда мы решаем попробовать что-то новое или изменить устоявшийся уклад жизни, перед вами возникает необходимость выбора того самого первого шага, с которого и начнется “путь, длиной в тысячу миль”. В статье “Big Data: временное явление или море возможностей?” мы с вами знакомились с новой и перспективной сферой Data Science, которая набирает популярность в современном бизнес-мире, и поговорили о 2 профессиях - Data Analyst и Data Scientist. Давайте теперь рассмотрим более детально, какие еще роли есть в Big Data и какие навыки нужны для их освоения!

Кто же нужен для работы с Большими Данными?

Глобально всю деятельность по работе с Big Data можно разделить на 2 группы: инженерия и аналитика.

  • Аналитика - это процессы, направленные на сбор, очистку, обработку и анализ данных: подготовка информации для создания моделей, разработка гипотез, создание алгоритмов машинного обучения и т.д. Здесь находятся такие профессии как: Data Analyst, Data Scientist, Machine Learning Engineer. Главная задача этих ролей - понять потребности заказчика, выделить основные источники информации, найти необходимые данные и создать эффективные аналитические и предиктивные модели, которые помогут бизнесу.
  • Инженерия - здесь мы говорим о программном и аппаратном обеспечении, которое необходимо для работы систем, с помощью которых данные собираются, обрабатываются, анализируются и хранятся. То есть, Big Data Administrator и Big Data Engineer отвечают за правильную настройку и поддержание инфраструктуры, необходимой для работы Аналитику Данных, Ученому по Данных и Специалисту по Машинному Обучению.
  • Есть еще 2 профессии, которые находятся на границе аналитики и инженерии - DevOps Engineer и DataOps Engineer. Их главная задача - обеспечение непрерывной интеграции процессов. 

Какими работодатели видят специалистов по аналитике данных?

Data Scientist должен обладать аналитическими навыками, уметь программировать и понимать доменную область клиента. Более детально набор компетенций выглядит так:

  • Знание Python/R/Scala/SAS.
  • Умение работать с SQL/NoSQL базами данных.
  • Способность перерабатывать неструктурированные данные из разнообразных источников (к примеру, соцсети).
  • Навыки работы с разнообразными аналитическими инструментами.
  • Знание принципов машинного обучения и возможность их применения.     

Задача Ученого по Данным - находить правильные данные и обрабатывать их так, чтобы полученные результаты помогали принимать верные стратегические бизнес-решения. В частности, сюда входит создание моделей, способных предугадывать, к примеру, поведение пользователей при покупке после определенных изменений на сайте, разработка гипотез и создание прототипов для их проверки. 

Пример вакансии на dou.ua:

Размер зарплат. Новички с опытом работы менее 1 года могут рассчитывать на 730$, более опытные, к примеру от 3 лет - на 2000$. Так как для этой роли знание языков программирования является плюсом (и не всегда обязательным условием), то на нее могут претендовать бизнес-аналитики, аналитики данных и те, кто хорошо владеет навыками математического и статистического анализа.

Data Analyst должен взять определенный вопрос, найти необходимые данные, проанализировать их и представить визуальные результаты всем заинтересованным стейкхолдерам. Для этого важны следующие компетенции:

  • Знание математической статистики.
  • Навык первичной обработки данных.
  • Умение работать с платформами для анализа данных (к примеру, PIG/HIVE) и SQL-базами данных.
  • Понимание принципов программирования на Python или R будет плюсом. 

Функции Data Analyst и Data Scientist во многом похожи, так как их основная задача - это обработать данные и получить результаты, которые удовлетворяют запросам, с которым пришел клиент. Однако Ученый по Данным - это более обширная роль, он должен уметь создавать правильные “вопросы” и прототипы для их решения, в то время как Аналитик ищет на них ответы.

Как видят аналитиков данных HR-специалисты:

Размер зарплат. При опыте работы до года - от 730$, 2-3 года - от 1730$.

Machine Learning Engineer - это специалист, который использует различные математические, статистические и вычислительные методы для создания алгоритмов, которые извлекают необходимые данные для дальнейшего обучения и “предсказывания” трендов в будущем. Если простыми словами: он создает алгоритмы (как нейросети в мозгу человека), согласно которым затем компьютер “думает”.  

Мы все знакомы с этим явлением, так как у нас есть Facebook и YouTube, чьи алгоритмы машинного обучения собирают информацию по каждому пользователю и затем выводят “советы” на основе интересующих вас вещей: например, посты или видео.

Функции Специалиста по Машинному Обучению во многом похожи на Data Scientist, однако у первого идет больший акцент именно на машинное обучение, а у второго - на анализ данных. 

Для этой профессии важны знание основ информатики и вычислительной техники, умение программировать, знание теории вероятности и статистического анализа, а также умение моделировать и анализировать данные. Какие компетенции нужны:

  • Умение программировать (наиболее популярны такие языки, как Python, Java, R, C++), и работать с базами данных (SQL/NoSQL).
  • Знание R или Python для моделирования.
  • Навыки работы с готовыми библиотеками и умение создавать распределенные приложения.
  • Владение принципами Machine Learning и разнообразными методами анализа данных.

Как выглядит вакансия Machine Learning Engineer на dou.ua:

В следующей статье мы поговорим о специальностях из сферы инженерии и определимся с тем, как выбрать себе роль, чтобы сделать первый шаг и начать обучение на специалистов в Big Data.

Похожие темы