Pipeline ETL Python - 1 Bilhão de linhas com Pandas, Polars, PySpark e Duckdb

Pipeline ETL Python - 1 Bilhão de linhas com Pandas, Polars, PySpark e Duckdb

10.525 Lượt nghe
Pipeline ETL Python - 1 Bilhão de linhas com Pandas, Polars, PySpark e Duckdb
Faça parte da Jornada! 30% OFF aqui 👇 http://bit.ly/42KtSal Você já tentou ler e processar 1 bilhão de linhas (~14GB) em apenas 15 segundos? 😲 Neste vídeo, vou mostrar como fiz isso, realizando operações complexas como GROUP BY e ORDER BY usando apenas Python e SQL! Testei várias bibliotecas populares, incluindo Pandas, Polars, Pyspark e DuckDB, em busca da melhor performance. E os resultados...você confere no vídeo. Capítulos: 00:00 Contagem Regressiva 08:39 Introdução 13:45 Apresentação dos Tópicos 17:46 O que vamos fazer? 24:41 Explicando o projeto 1 Bilhão de Linhas 36:51 Bora pro desafio! 37:02 Passo 1: Criando e configurando o repositório no GitHub 41:56 Passo 2: Gerando o primeiro arquivo (weather_station.csv) + .gitignore 47:26 Passo 3: Entendendo o arquivo create_measurements.py 51:51 Passo 4: Trabalhando com ETL em Python (etl_python.py) 1:16:46 Passo 5: Trabalhando com ETL em Pandas (etl_pandas.py) 1:59:27 Passo 6: Trabalhando com ETL em Duckdb (etl_duckdb.py) 2:32:51 Passo 7: Trabalhando com ETL em PySpark (Databricks) 2:49:36 Projetos de Setembro _________________________________________________________________________________________________ Jornada de Dados ► Inscreva-se em nosso canal: https://www.youtube.com/channel/UCl-5oPIbTAwLZ0hF_dCUyLQ ► Ative as notificações (clica no sininho)! ► Curta o nosso vídeo! _________________________________________________________________________________________________ Redes Sociais ► Site: https://bit.ly/46jwnjO ► Instagram: https://www.instagram.com/lucianojornadadedados/ ► LinkedIn: https://www.linkedin.com/in/lucianovasconcelosf/ ► GitHub: https://bit.ly/4djYjGy ► T-shirts Jornada de Dados: https://bit.ly/3LIPfQ8 ► Google Calendar: https://bit.ly/4cVu8WL