Data Engineering Zoomcamp — бесплатный курс по Data Engineering и построению data-pipeline

Data Engineering Zoomcamp — бесплатный курс по Data Engineering и построению data-pipeline
Разработка и программирование
Содержание показать/скрыть

Обзор Data Engineering Zoomcamp от DataTalksClub. Что это за курс, чему он учит, структура модулей и где изучать материалы.

Data Engineering Zoomcamp — это бесплатный образовательный курс и набор учебных материалов, который учит основам Data Engineering. Проект создан сообществом DataTalksClub и размещён на GitHub, где доступны все лекции, задания и примеры кода.

Главная цель курса — научить создавать полноценные data-pipeline, используя реальные инструменты индустрии.


Что такое Data Engineering Zoomcamp

Data Engineering Zoomcamp — это интенсивный курс длительностью около 9–10 недель, который постепенно обучает основам работы с данными и инфраструктурой обработки данных.

Во время обучения участники строят end-to-end pipeline — систему, которая:

  • собирает данные

  • обрабатывает их

  • хранит в хранилище

  • подготавливает для аналитики

Курс полностью бесплатный и доступен для самостоятельного изучения.

Официальный репозиторий:
https://github.com/DataTalksClub/data-engineering-zoomcamp


Для чего нужен этот курс

Zoomcamp предназначен для тех, кто хочет освоить профессию Data Engineer.

Он помогает:

  • изучить архитектуру обработки данных

  • научиться строить data-pipeline

  • работать с облачными сервисами

  • освоить инструменты Big Data

  • создать портфолио проектов

Курс часто используют начинающие специалисты, которые хотят перейти в сферу работы с данными.


Что изучают на курсе

Программа разделена на несколько модулей, каждый из которых посвящён отдельной части data-инфраструктуры.

Модуль Темы
Containerization & Infrastructure Docker, PostgreSQL, Terraform, настройка облачной инфраструктуры
Workflow Orchestration Data Lakes и оркестрация процессов
Data Warehousing работа с BigQuery, партиционирование и оптимизация
Analytics Engineering моделирование данных и работа с dbt
Data Platforms построение data-pipeline и обработка данных
Batch Processing Apache Spark и обработка больших данных
Streaming Kafka, потоковая обработка данных
Final Project создание полноценного проекта data-pipeline

Все материалы сопровождаются заданиями и практическими упражнениями.


Какие технологии используются

Во время курса изучаются инструменты, которые широко используются в индустрии data engineering.

Основные технологии:

  • Docker

  • Terraform

  • PostgreSQL

  • Google Cloud Platform

  • BigQuery

  • dbt

  • Apache Spark

  • Kafka

Освоение этих инструментов помогает понять, как строятся реальные системы обработки данных.


Как устроен репозиторий курса

GitHub-репозиторий используется как основной источник материалов.

Структура проекта выглядит примерно так:

Папка Содержимое
01-docker-terraform инфраструктура и контейнеризация
02-workflow-orchestration управление data-pipeline
03-data-warehouse работа с хранилищами данных
04-analytics-engineering моделирование данных
05-data-platforms создание платформ обработки
06-batch пакетная обработка данных
07-streaming потоковая обработка
projects финальные проекты

В каждой папке находятся:

  • инструкции

  • код

  • задания

  • ссылки на лекции.


Требования к участникам

Для прохождения курса желательно иметь базовые знания программирования.

Рекомендуемые навыки:

  • базовый Python

  • SQL

  • основы работы с Linux

  • понимание баз данных

Однако предыдущий опыт работы с Data Engineering не обязателен.


Как начать обучение

Чтобы начать изучение курса:

  1. Перейдите в репозиторий проекта
    https://github.com/DataTalksClub/data-engineering-zoomcamp

  2. Изучите README и структуру модулей.

  3. Смотрите лекции и выполняйте задания.

  4. Пройдите финальный проект.

Все материалы доступны бесплатно и могут изучаться в любом темпе.

Информация

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.