Описание
Программа «Инженер данных» предназначена для аналитиков, инженеров данных, BI- и бэкенд-разработчиков. За 5 месяцев онлайн-обучения узнаете, как подбирать эффективные инструменты под любые задачи обработки данных, освоите актуальные для сферы инструменты и защитите проект, которым вы сможете дополнить свое резюме.
Характеристики
- Дополнительная категория
- 303
- Цена по скидке
- 92000
- Оплата в рассрочку
- 12
- Ежемесячная цена
- 8667
- Ближайшая дата
- 2024-08-08
- Продолжительность
- 5
- План
- Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.
- План
- ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.
- План
- Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.
- План
- Data Warehouse — централизованное хранилище данных из разных источников. Познакомимся с его верхнеуровневой логической архитектурой, рассмотрим её основные компоненты и разберём на практике разные подходы к проектированию детального слоя DWH.
- План
- Рассмотрим облачные решения и инструменты для построения DWH и Data Lake. Познакомимся с Kubernetes и научимся применять его для работы с данными. Поработаем с облаком на практике, рассмотрим процесс установки и настройки JupyterHub и Spark в Kubernetes.
- План
- Рассмотрим основные принципы работы с данными с точки зрения их визуализации и научимся смотреть на данные глазами их потребителя. Познакомимся с Tableau — гибким и мощным BI-инструментом. Узнаем, как он взаимодействует с базами данных, и построим с его помощью интерактивный дашборд для мониторинга DWH платформы.
- План
- Познакомимся с теорией распределённого машинного обучения. Научимся работать с популярным модулем Spark ML и рассмотрим подходы к обучению и применению моделей на больших данных.
- План
- В работе инженеры часто сталкиваются с подготовкой данных для обучения ML-моделей. Рассмотрим инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей.
- План
- На практике часто приходится иметь дело с разными данными и огромным числом интеграций и процессов, выполняющих над ними те или иные преобразования. Познакомимся с популярными подходами к управлению данными, обсудим инструменты для контроля качества данных и отслеживания их происхождения.
- Формат обучения
- В группе с наставником
- Есть вебинары
- true
- Есть домашние работы
- true
- Есть видеоуроки
- true
- Есть текстовые уроки
- true
- Есть тренажеры
- true
- Есть сообщество
- true
- Сложность
- Для опытных
- Тип обучения
- Профессия
- Есть бесплатная часть
- true
- Результат обучения
- Сертификат
- Часы в неделю
- 15