- 61,550
- 3,377
[Udemy] Инжиниринг данных — SSIS/ETL/конвейеры/Python/веб-скрейпинг (2022)
Инженер данных — это тот, кто создает конвейеры ETL для больших данных и позволяет собирать огромные объемы данных и преобразовывать их в идеи. Они сосредоточены на производственной готовности данных и таких вещах, как форматы, отказоустойчивость, масштабирование и безопасность.
Службы интеграции SQL Server — это компонент программного обеспечения базы данных Microsoft SQL Server, который можно использовать для выполнения широкого круга задач переноса данных. SSIS — это платформа для интеграции данных и приложений для рабочих процессов. Он включает в себя инструмент хранилища данных, используемый для извлечения, преобразования и загрузки данных.
ETL, что означает извлечение, преобразование и загрузка, представляет собой процесс интеграции данных, который объединяет данные из нескольких источников данных в единое согласованное хранилище данных, которое загружается в хранилище данных или другую целевую систему.
Конвейер ETL — это набор процессов, используемых для перемещения данных из источника или нескольких источников в базу данных, такую как хранилище данных или целевые базы данных.
Служба интеграции SQL Server (SSIS) предоставляет удобный и унифицированный способ чтения данных из разных источников (извлечение), выполнения агрегирования и преобразования (преобразование), а затем интеграции данных (загрузки) для хранения данных и аналитики. Когда вам нужно обработать большой объем данных (гигабайты или терабайты), SSIS становится идеальным подходом для такой рабочей нагрузки.
Веб-скрапинг, веб-сбор или извлечение веб-данных — это парсинг данных, используемый для извлечения данных с веб-сайтов. Программное обеспечение для очистки веб-страниц может напрямую обращаться к всемирной паутине с использованием протокола передачи гипертекста или веб-браузера. Хотя просмотр веб-страниц может выполняться пользователем программного обеспечения вручную, этот термин обычно относится к автоматизированным процессам, реализованным с использованием бота или поискового робота. Это форма копирования, при которой определенные данные собираются и копируются из Интернета, как правило, в центральную локальную базу данных или электронную таблицу для последующего поиска или анализа.
Для кого этот курс:
- Начинающие инженеры данных
- Приветствуется базовое знание Python
- Рекомендуется базовое знание концепций баз данных
Скачать данный курс:
Войдите, чтобы увидеть контент
Скачать еще курсы с этого раздела
- [Udemy] Evgeny Borisov ― Spring AI Pro или про весну искусственного интеллекта глубже (2025)
- [Ольга Назина] Charles Proxy как инструмент тестировщика (2025)
- [Udemy] Evgeny Borisov ― Spring AI или Весна Искусственного Интеллекта (2025)
- [Vibecoder School] Станислав Быстрицкий ― Самый полный курс по вайбкодингу сайтов и веб-приложений
- Продвинутый backend на nodejs за 12 часов [Кирилл Поздняков]