Treinamento Airbyte
Sobre o Treinamento
O treinamento Airbyte é recomendado a profissionais que já possuam conhecimentos básicos de engenharia de dados e queiram dominar a plataforma open source mais adotada para replicação e integração de dados em ambientes modernos de Data Engineering.
O Airbyte é uma plataforma ELT (Extract, Load, Transform) de código aberto que oferece centenas de conectores prontos para sincronizar dados de qualquer origem, bancos de dados relacionais e NoSQL, SaaS, APIs, arquivos e streams, para destinos como data warehouses, data lakes e bancos analíticos.
O treinamento aborda desde a instalação e configuração até o desenvolvimento de conectores customizados com o Airbyte CDK, orquestração com Airflow, deploy em Kubernetes e integração com o ecossistema moderno de dados (dbt, Spark, Iceberg, etc.).
Objetivo
Ministrar os conceitos e técnicas de integração e replicação de dados com o Airbyte.
Público Alvo
O treinamento Airbyte destina-se a engenheiros de dados, arquitetos de dados, administradores de infraestrutura e equipes de DevOps que trabalham com pipelines de integração e replicação de dado.
Dificuldade.
Intermediário.
Aplicabilidade.
Este treinamento foi desenvolvido usando o Airbyte 2.0.0 (OSS) e foi modificado pela última vez em 22 de Maio de 2026.
Conteúdo Programático:
Introdução à Integração de Dados e ao Airbyte.
- Conceitos de integração de dados: ETL vs ELT.
- Histórico e evolução das ferramentas de integração.
- O projeto Airbyte: origem, licença e comunidade.
- Airbyte OSS vs Airbyte Cloud vs Airbyte Enterprise.
- Comparativo: Airbyte x Fivetran x Stitch x Singer x NiFi x Debezium.
- Arquitetura geral do Airbyte.
- Casos de uso e adoção no mercado.
- Ecossistema moderno de dados: Modern Data Stack.
Instalação e Configuração do Airbyte.
- Requisitos de sistema e pré-requisitos.
- Instalação via Docker Compose (modo local).
- Instalação via abctl (Airbyte CLI).
- Deploy no Kubernetes com Helm Chart.
- Configuração de portas, volumes e variáveis de ambiente.
- Primeiro acesso à interface web.
- Estrutura de diretórios e arquivos de configuração.
- Modo de atualização e versionamento de releases.
Arquitetura Interna do Airbyte.
- Componentes principais: Worker, Server, Temporal, Webapp.
- Fluxo de execução de uma sincronização.
- Airbyte Protocol: mensagens e streams.
- Catalogs e schemas.
- Jobs e tentativas de reexecução.
- Armazenamento de estado (state management).
- Gerenciamento de segredos com Kubernetes Secrets e variáveis de ambiente.
- Logs e rastreabilidade de execuções.
Fontes (Sources) e Destinos (Destinations).
- Conceito de Source e Destination no Airbyte.
- Catálogo de conectores disponíveis.
- Configurando Source: PostgreSQL, MySQL, MongoDB.
- Configurando Source: REST API, Google Sheets.
- Configurando Source: arquivos CSV, JSON, Minio/S3.
- Configurando Destination: PostgreSQL, ClickHouse, DuckDB.
- Configurando Destination: Delta Lake, Apache Iceberg, Minio/S3.
- Gerenciamento de credenciais e autenticação OAuth.
Conexões e Sincronizações.
- Criando e gerenciando Connections.
- Modos de sincronização: Full Refresh, Incremental, Deduped.
- Estratégias de sincronização: Append, Overwrite, Merge.
- Cursor fields e Primary keys.
- Configuração de streams e seleção de campos.
- Agendamento de sincronizações (Cron, Manual, Gatilho por evento).
- Monitoramento de jobs e tratamento de falhas.
- Reprocessamento e backfill de dados históricos.
- Notificações e alertas de falha (Slack, e-mail).
Change Data Capture (CDC) com Airbyte.
- Conceito de Change Data Capture.
- CDC com PostgreSQL (logical replication / pgoutput).
- Configuração de replication slots e permissões.
- Gerenciamento de lag e latência de replicação.
- Casos de uso de CDC em pipelines de tempo real.
Transformações com dbt e Airbyte.
- Integração Airbyte + dbt: o padrão ELT moderno.
- Normalization nativa do Airbyte (Basic Normalization).
- Habilitando dbt no Airbyte OSS.
- Transformações customizadas com dbt Core.
- Tabelas raw vs tabelas normalizadas.
- Schema evolution e compatibilidade de tipos.
- Testes de qualidade de dados pós-sincronização.
- Orquestração Airbyte + dbt com Airflow.
Airbyte API e Automatização.
- Airbyte REST API: visão geral e autenticação.
- Gerenciando Sources, Destinations e Connections via API.
- Disparando sincronizações programaticamente.
- Airbyte Python Client (PyAirbyte).
- Infrastructure as Code com Terraform Provider do Airbyte.
- Automatizando onboarding de novas fontes.
- Integração com Apache Airflow via operadores.
- Webhooks e event-driven pipelines.
Deploy em Produção com Kubernetes.
- Visão geral do deploy Airbyte em Kubernetes.
- Helm Chart: valores e customizações.
- Configuração de Persistent Volumes para logs e estado.
- Escalabilidade horizontal de Workers.
- Configuração de banco de dados externo (PostgreSQL).
- Configuração do Temporal no modo distribuído.
- Ingress e TLS para a UI e API.
- Estratégias de atualização em produção (zero-downtime).
Monitoramento, Observabilidade e Performance.
- Métricas do Airbyte com Prometheus e Grafana.
- Monitoramento de jobs e throughput de dados.
- Rastreamento de sincronizações e logs estruturados.
- Alertas operacionais e SLOs de pipeline.
- Tuning de performance: paralelismo e tamanho de batch.
- Diagnóstico de conectores lentos.
- Data freshness e SLA de dados.
Segurança, Acesso e Governança.
- Autenticação de usuários: modo básico e integração com Keycloak (OIDC)
- Controle de acesso por workspace e permissões.
- Gerenciamento de segredos com OpenBao e Kubernetes Secrets.
- Criptografia de credenciais em repouso.
- Auditoria de ações e acessos.
- LGPD/GDPR: filtragem de dados sensíveis na origem.
- Mascaramento de campos PII em pipelines.
- Isolamento de workspaces multi-tenant.
Pipelines na Prática.
- Pipeline: PostgreSQL para Data Warehouse e dbt.
- Pipeline: MongoDB para PostgreSQL com incremental.
- Pipeline: PostgreSQL para Apache Iceberg no S3.
- Orquestração de múltiplos pipelines com Airflow.
- Testes end-to-end com dados reais e validação de qualidade.
Melhores Práticas e Troubleshooting.
- Padronização de nomenclatura de conexões e streams.
- Estratégias de retry e idempotência.
- Gerenciamento de schema drift.
- Depuração de erros comuns de conectores.
- Diagnóstico de problemas de rede e firewall.
- Recuperação de sincronizações com falha.
- Atualização de conectores em produção.
- Contribuindo com a comunidade Airbyte
Pré-requisitos de conhecimento
- Conhecimento básico Linux.
- Conhecimento básico de redes (proxy, gateway,etc).
Requisitos dos alunos
- Todos os participantes devem trazer um notebook para realizar as atividades práticas.
- O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
- Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.
Requisitos mínimos de hardware
- Memória RAM: 8 GB.
- Espaço em Disco: 20GB.
- Processador: i5 ou i7 a partir da segunda geração ou similar.
- Sistemas Operacionais: GNU/Linux, Windows.
- Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.
Carga Horária
- 32 Horas de duração.
Modalidades do Treinamento.
- Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais brasileiras.
- On Line Ao Vivo - Fazemos a transmissão online/ao vivo do treinamento.
- In Company (Presencial ou Online) - Turmas fechadas para empresas a custo único para até 15 alunos.
Material
Serão disponibilizados os seguintes materiais aos alunos do treinamento:
- Todos os softwares Airbyte e acessórios na sua última versão estável.
- Material próprio em Português do Brasil.
- Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
- Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
- Apostilas com exercícios práticos desenvolvidos no treinamento.
- Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Metodologia
- Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.
Inscrições, Informações e Valores
Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Airbyte, e cursos Airbyte. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.
Diferenciais da Ambiente Livre.
A Ambiente Livre tem 22 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.
5.007 profissionais capacitados em 399 turmas ministradas.
Atuação global, 845 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.
Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.
Treinamentos baseados em experiência de projetos e consultorias, 2.980 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.
Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.
Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.
Instrutores
Marcio Junior Vieira
- 27 anos de experiência em TI, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
- CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
- Atuou como Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo e do MBA Artificial Intelligence e Machine Learning da FIAP.
- Atuou como Pesquisador pelo UFG/CIAP (Centro de Colaboração Interinstitucional de Inteligência Artificial Aplicada às Políticas Públicas) e no grupo Latitude (Laboratório de Tecnologias da Tomada de Decisão) da UNB.
- Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
- Graduado em Tecnologia em Informática (2004) e pós-graduado em Software Livre (2005) ambos pela UFPR.
- Palestrante FLOSS em: The Developers Conference (TDC), FISL, Latinoware, Campus Party, Pentaho Day, Ticnova, PGConf Brasil e FTSL.
- Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas edições de 2013 e 2014.
- Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
- Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
- Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e Kafka.
- Contribuidor de projetos Open Source ou Free Software internacionais, tais como Pentaho, LimeSurvey, SuiteCRM, Camunda, Operaton e Apache Hop.
- Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable, Camunda e Operaton.
- Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).