Pipeline ETL Python - 1 Bilhão de linhas com Pandas, Polars, PySpark e Duckdb

10.525 Lượt nghe

00:00

Update Required To play the media you will need to either update your browser to a recent version or update your Flash plugin.

Tải MP3

MÔ TẢ MP3TIẾP THEO

Pipeline ETL Python - 1 Bilhão de linhas com Pandas, Polars, PySpark e Duckdb

Faça parte da Jornada! 30% OFF aqui 👇
http://bit.ly/42KtSal

Você já tentou ler e processar 1 bilhão de linhas (~14GB) em apenas 15 segundos? 😲 Neste vídeo, vou mostrar como fiz isso, realizando operações complexas como GROUP BY e ORDER BY usando apenas Python e SQL!

Testei várias bibliotecas populares, incluindo Pandas, Polars, Pyspark e DuckDB, em busca da melhor performance. E os resultados...você confere no vídeo.

Capítulos:

00:00 Contagem Regressiva
08:39 Introdução
13:45 Apresentação dos Tópicos
17:46 O que vamos fazer?
24:41 Explicando o projeto 1 Bilhão de Linhas
36:51 Bora pro desafio!
37:02 Passo 1: Criando e configurando o repositório no GitHub
41:56 Passo 2: Gerando o primeiro arquivo (weather_station.csv) + .gitignore
47:26 Passo 3: Entendendo o arquivo create_measurements.py
51:51 Passo 4: Trabalhando com ETL em Python (etl_python.py)
1:16:46 Passo 5: Trabalhando com ETL em Pandas (etl_pandas.py)
1:59:27 Passo 6: Trabalhando com ETL em Duckdb (etl_duckdb.py)
2:32:51 Passo 7: Trabalhando com ETL em PySpark (Databricks)
2:49:36 Projetos de Setembro

_________________________________________________________________________________________________

Jornada de Dados

► Inscreva-se em nosso canal: https://www.youtube.com/channel/UCl-5oPIbTAwLZ0hF_dCUyLQ
► Ative as notificações (clica no sininho)!
► Curta o nosso vídeo!

_________________________________________________________________________________________________
Redes Sociais

► Site: https://bit.ly/46jwnjO
► Instagram: https://www.instagram.com/lucianojornadadedados/
► LinkedIn: https://www.linkedin.com/in/lucianovasconcelosf/
► GitHub: https://bit.ly/4djYjGy
► T-shirts Jornada de Dados: https://bit.ly/3LIPfQ8
► Google Calendar: https://bit.ly/4cVu8WL					

Pipeline ETL Python - 1 Bilhão de linhas com Pandas, Polars, PySpark e Duckdb

Nhạc Theo Chủ Đề

Liên kết website