Хочу в Big Data: с чего начать свой путь? Часть 2.

16 сентября 2021

Любите осваивать новые области и идти в ногу со временем, стараясь предугадать тренды, которые станут незаменимыми в будущем? Тогда вам стоит обратить свое внимание на сферу Big Data

Что такое Data Science, чем занимается Data Analyst, какие обязанности у Machine Learning Engineer и, самое интересное, какой у них уровень заработка? Об этом вы можете прочесть в статье “Хочу в Big Data: с чего начать свой путь? Часть 1”, в которой мы детально рассмотрели один блок профессий - связанных с аналитикой Больших Данных. 

Но мы все понимаем, что без правильно настроенного окружения и организованного процесса даже самый классный отчет может затеряться и не принести пользу бизнесу.  

Кто поможет настроить инфраструктуру для работы с Большими Данными?

Big Data Engineer или Инженер Данных - специалист, отвечающий за правильный сбор и хранение информации, то есть создание правильной инфраструктуры. 

Основные навыки и знания:

  • понимание, как данные структурируются;
  • навык работы с реляционными и нереляционными базами данных и знание принципов работы SQL и NoSQL;
  • умение работать с системами ETL и облачными платформами;
  • навык работы с программной платформой Apache Hadoop и ее кластерами;
  • умение программировать (Python, R, Scala) для работы с системами. 

По своим особенностям эта позиция ближе всего к backend development, поэтому на эту роль легче всего перейти IT-разработчику, дополнив свой стек технологиями для работы с Big Data.

Инженер Данных концентрируется не на сути самих данных - это задача Data Scientist и Data Analyst, он должен организовать правильные способы их сбора, хранения и переработки, то есть он отвечает за работу с “сырыми” данными.

Обязанности Data Engineer:

  • настроить и автоматизировать сбор данных из разных ресурсов в одном месте - Data Warehouse (хранилище данных) или Data Lake (озеро данных);
  • работа с массивами данных: их перенос и хранение; 
  • подготовка витрин данных для Data Scientist и Data Analyst;
  • систематический контроль качества информации и работа над способами его повышения.

Как выглядят вакансии на сайтах по поиску кандидатов? Вот пример требований для Junior/Middle Data Engineer:

и его будущие обязанности:

С Middle и Senior Data Engineer ставки повышаются - компании готовы платить за рекомендации.

Сколько получает Инженер Данных? Согласно отчету dou.ua, средний уровень зарплат - $3000.

Junior Data Engineer может рассчитывать на $600, а Senior с опытом работы от 5 лет - на 5-8 тысяч долларов.

Еще одна роль для обеспечения правильной инфраструктуры - это Data Administrator. Он также отвечает за настройку правильной инфраструктуры, однако его функции более узконаправленные - он создает и поддерживает кластерные решения:

  • занимается созданием кластеров;
  • отвечает за подбор конфигурации;
  • создает и работает с локальными репозиториями;
  • отвечает за информационную безопасность;
  • обеспечивает сбалансированную нагрузку на серверы и оптимизацию систем.

Чтобы обеспечивать правильную настройку кластеров, Администратору Данных нужно

  • уметь работать с сетевыми протоколами стека TCP/IP;
  • знать язык программирования (Python, например);
  • разбираться в Apache Hadoop и ее кластерных решениях;
  • владеть разными инструменты для балансирования нагрузки (Apache Ambari) и обеспечения безопасности кластеров (Cloudera Navigator);
  • уметь работать с облачными платформами.

И для полноценной работы команды Big Data важны еще 2 специалиста: DevOps и DataOps-инженеры. Они оба отвечают за непрерывность процесса интеграции и развертывания с целью уменьшения срока поставки готового продукта. DevOps работает с программным обеспечением, в то время как DataOps - с данными.  

Задачи DataOps-специалиста:

  • создавать инфраструктуру, позволяющую хранить и использовать данные корректно;
  • улучшать процессы анализа данных;
  • контролировать потоки данных;
  • автоматизировать процессы загрузки и обработки данных.

Как мне выбрать, куда пойти в Big Data?

Теперь, когда у нас есть понимание, какие специалисты и за что отвечают в Big Data, мы можем ответить себе на вопрос, как же сделать первый шаг. Прежде всего поймите, что больше всего вам нравится:

  • анализ?
  • программирование?
  • создание инфраструктуры?
  • написание математических моделей?
  • управление?

Затем нужно выбрать подходящую профессию, проанализировать, каких технологий вам не хватает, и выбрать источники, которые помогут закрыть эти пробелы.

Big Data - это развивающаяся отрасль, которая только проходит процесс становления и в ней острая нехватка специалистов. Поэтому нужно быть проактивными и получать знания для будущего прямо сейчас. Например, вместе с группой “Аналитик данных”, старт которой запланирован на 11 октября! 

Похожие темы