Форум программистов, компьютерный форум, киберфорум
Etl
Войти
Регистрация
Восстановить пароль
Старый
Конвейеры ETL с Apache Airflow и Python
Запись от AI_Generated размещена 13.05.2025 в 10:02 / AI coming for you
Показов 2615 Комментарии 0
Метки airflow, apache, etl, python

Нажмите на изображение для увеличения
Название: 5edb7e39-15da-48ed-9f2a-ebda2d5087ed.jpg
Просмотров: 18
Размер:	195.1 Кб
ID:	10799
ETL-конвейеры – это набор процессов, отвечающих за извлечение данных из различных источников (Extract), их преобразование в нужный формат (Transform) и загрузку в целевое хранилище (Load). Современные компании оперируют сотнями терабайт информации, которые поступают из десятков разнородных систем: от древних корпоративных монстров на COBOL до навороченных REST API с непредсказуемым поведением. Создание надёжных потоков данных...
Аватар для AI_Generated
Старый
Создание конвейеров данных ETL с помощью Pandas
Запись от AI_Generated размещена 10.05.2025 в 20:22 / AI coming for you
Показов 3153 Комментарии 0

Нажмите на изображение для увеличения
Название: a8a5aeb1-a8d7-495a-9fe7-2e653620c4dd.jpg
Просмотров: 81
Размер:	34.0 Кб
ID:	10787
Помню свой первый опыт работы с большим датасетом — это была катастрофа из неотформатированных CSV-файлов, странных значений NULL и дубликатов, от которых ехала крыша. Тогда я потратил три дня на очистку данных вручную... Три дня, которые можно было сократить до пары часов, имей я под рукой хорошо настроеный конвейер на Pandas.

Эта статья — путеводитель по созданию таких конвейеров. Мы погрузимся в...
Аватар для AI_Generated
Старый
Высокоскоростные конвейеры ETL на C# с параллельной обработкой
Запись от UnmanagedCoder размещена 07.05.2025 в 18:22 / C# .Net and all about
Показов 3772 Комментарии 0

Нажмите на изображение для увеличения
Название: 34723b11-19d6-4b35-8f9e-39f78544f4b3.jpg
Просмотров: 65
Размер:	260.6 Кб
ID:	10763
Суть ETL проста по замыслу, но сложна в реализации: выдернуть информацию из разнородных источников, привести её к нужному виду и закинуть туда, где она будет приносить пользу. И хотя базовая концепция существует десятилетиями, способы реализации ETL-процессов постоянно...
Аватар для UnmanagedCoder
Новые блоги и статьи
Реализация многопоточных сетевых серверов на Python
py-thonny 16.05.2025
Когда сталкиваешься с необходимостью писать высоконагруженные сетевые сервисы, выбор технологии имеет критическое значение. Python, со своей элегантностью и высоким уровнем абстракции, может. . .
C# и IoT: разработка Edge приложений с .NET и Azure IoT
UnmanagedCoder 16.05.2025
Мир меняется прямо на наших глазах, и интернет вещей (IoT) — один из главных катализаторов этих перемен. Если всего десять лет назад концепция "умных" устройств вызывала скептические улыбки, то. . .
Гибридные квантово-классические вычисления: Примеры оптимизации
EggHead 16.05.2025
Гибридные квантово-классические вычисления — это настоящий прорыв в подходах к решению сложнейших вычислительных задач. Представьте себе союз двух разных миров: классические компьютеры, с их. . .
Использование вебсокетов в приложениях Java с Netty
Javaican 16.05.2025
HTTP, краеугольный камень интернета, изначально был спроектирован для передачи гипертекста с минимальной интерактивностью. Его главный недостаток в контексте современных приложений — это. . .
Реализация операторов Kubernetes
Mr. Docker 16.05.2025
Концепция операторов Kubernetes зародилась в недрах компании CoreOS (позже купленной Red Hat), когда команда инженеров искала способ автоматизировать управление распределёнными базами данных в. . .
Отражение в C# и динамическое управление типами
stackOverflow 16.05.2025
Reflection API в . NET — это набор классов и интерфейсов в пространстве имён System. Reflection, который позволяет исследовать и манипулировать типами, методами, свойствами и другими элементами. . .
Настройка гиперпараметров с помощью Grid Search и Random Search в Python
AI_Generated 15.05.2025
В машинном обучении существует фундаментальное разделение между параметрами и гиперпараметрами моделей. Если параметры – это те величины, которые алгоритм "изучает" непосредственно из данных (веса. . .
Сериализация и десериализация данных на Python
py-thonny 15.05.2025
Сериализация — это своего рода "замораживание" объектов. Вы берёте живой, динамический объект из памяти и превращаете его в статичную строку или поток байтов. А десериализация выполняет обратный. . .
Чем асинхронная логика (схемотехника) лучше тактируемой, как я думаю, что помимо энергоэффективности - ещё и безопасность.
Hrethgir 14.05.2025
Помимо огромного плюса в энергоэффективности, асинхронная логика - тотальный контроль над каждым совершённым тактом, а значит - безусловная безопасность, где безконтрольно не совершится ни одного. . .
Многопоточные приложения на C++
bytestream 14.05.2025
C++ всегда был языком, тесно работающим с железом, и потому особеннно эффективным для многопоточного программирования. Стандарт C++11 произвёл революцию, добавив в язык нативную поддержку потоков,. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru