Airbyte

Treinamento Airbyte

Sobre o Treinamento

O treinamento Airbyte é recomendado a profissionais que já possuam conhecimentos básicos de engenharia de dados e queiram dominar a plataforma open source mais adotada para replicação e integração de dados em ambientes modernos de Data Engineering.

O Airbyte é uma plataforma ELT (Extract, Load, Transform) de código aberto que oferece centenas de conectores prontos para sincronizar dados de qualquer origem, bancos de dados relacionais e NoSQL, SaaS, APIs, arquivos e streams, para destinos como data warehouses, data lakes e bancos analíticos.

O treinamento aborda desde a instalação e configuração até o desenvolvimento de conectores customizados com o Airbyte CDK, orquestração com Airflow, deploy em Kubernetes e integração com o ecossistema moderno de dados (dbt, Spark, Iceberg, etc.).

Objetivo

Ministrar os conceitos e técnicas de integração e replicação de dados com o Airbyte.

Público Alvo

O treinamento Airbyte destina-se a engenheiros de dados, arquitetos de dados, administradores de infraestrutura e equipes de DevOps que trabalham com pipelines de integração e replicação de dado.

Dificuldade.

Intermediário.

Aplicabilidade.

Este treinamento foi desenvolvido usando o Airbyte 2.0.0 (OSS) e foi modificado pela última vez em 22 de Maio de 2026.

Conteúdo Programático:

Introdução à Integração de Dados e ao Airbyte.

  • Conceitos de integração de dados: ETL vs ELT.
  • Histórico e evolução das ferramentas de integração.
  • O projeto Airbyte: origem, licença e comunidade.
  • Airbyte OSS vs Airbyte Cloud vs Airbyte Enterprise.
  • Comparativo: Airbyte x Fivetran x Stitch x Singer x NiFi x Debezium.
  • Arquitetura geral do Airbyte.
  • Casos de uso e adoção no mercado.
  • Ecossistema moderno de dados: Modern Data Stack.

Instalação e Configuração do Airbyte.

  • Requisitos de sistema e pré-requisitos.
  • Instalação via Docker Compose (modo local).
  • Instalação via abctl (Airbyte CLI).
  • Deploy no Kubernetes com Helm Chart.
  • Configuração de portas, volumes e variáveis de ambiente.
  • Primeiro acesso à interface web.
  • Estrutura de diretórios e arquivos de configuração.
  • Modo de atualização e versionamento de releases.

Arquitetura Interna do Airbyte.

  • Componentes principais: Worker, Server, Temporal, Webapp.
  • Fluxo de execução de uma sincronização.
  • Airbyte Protocol: mensagens e streams.
  • Catalogs e schemas.
  • Jobs e tentativas de reexecução.
  • Armazenamento de estado (state management).
  • Gerenciamento de segredos com Kubernetes Secrets e variáveis de ambiente.
  • Logs e rastreabilidade de execuções.

Fontes (Sources) e Destinos (Destinations).

  • Conceito de Source e Destination no Airbyte.
  • Catálogo de conectores disponíveis.
  • Configurando Source: PostgreSQL, MySQL, MongoDB.
  • Configurando Source: REST API, Google Sheets.
  • Configurando Source: arquivos CSV, JSON, Minio/S3.
  • Configurando Destination: PostgreSQL, ClickHouse, DuckDB.
  • Configurando Destination: Delta Lake, Apache Iceberg, Minio/S3.
  • Gerenciamento de credenciais e autenticação OAuth.

Conexões e Sincronizações.

  • Criando e gerenciando Connections.
  • Modos de sincronização: Full Refresh, Incremental, Deduped.
  • Estratégias de sincronização: Append, Overwrite, Merge.
  • Cursor fields e Primary keys.
  • Configuração de streams e seleção de campos.
  • Agendamento de sincronizações (Cron, Manual, Gatilho por evento).
  • Monitoramento de jobs e tratamento de falhas.
  • Reprocessamento e backfill de dados históricos.
  • Notificações e alertas de falha (Slack, e-mail).

Change Data Capture (CDC) com Airbyte.

  • Conceito de Change Data Capture.
  • CDC com PostgreSQL (logical replication / pgoutput).
  • Configuração de replication slots e permissões.
  • Gerenciamento de lag e latência de replicação.
  • Casos de uso de CDC em pipelines de tempo real.

Transformações com dbt e Airbyte.

  • Integração Airbyte + dbt: o padrão ELT moderno.
  • Normalization nativa do Airbyte (Basic Normalization).
  • Habilitando dbt no Airbyte OSS.
  • Transformações customizadas com dbt Core.
  • Tabelas raw vs tabelas normalizadas.
  • Schema evolution e compatibilidade de tipos.
  • Testes de qualidade de dados pós-sincronização.
  • Orquestração Airbyte + dbt com Airflow.

Airbyte API e Automatização.

  • Airbyte REST API: visão geral e autenticação.
  • Gerenciando Sources, Destinations e Connections via API.
  • Disparando sincronizações programaticamente.
  • Airbyte Python Client (PyAirbyte).
  • Infrastructure as Code com Terraform Provider do Airbyte.
  • Automatizando onboarding de novas fontes.
  • Integração com Apache Airflow via operadores.
  • Webhooks e event-driven pipelines.

Deploy em Produção com Kubernetes.

  • Visão geral do deploy Airbyte em Kubernetes.
  • Helm Chart: valores e customizações.
  • Configuração de Persistent Volumes para logs e estado.
  • Escalabilidade horizontal de Workers.
  • Configuração de banco de dados externo (PostgreSQL).
  • Configuração do Temporal no modo distribuído.
  • Ingress e TLS para a UI e API.
  • Estratégias de atualização em produção (zero-downtime).

Monitoramento, Observabilidade e Performance.

  • Métricas do Airbyte com Prometheus e Grafana.
  • Monitoramento de jobs e throughput de dados.
  • Rastreamento de sincronizações e logs estruturados.
  • Alertas operacionais e SLOs de pipeline.
  • Tuning de performance: paralelismo e tamanho de batch.
  • Diagnóstico de conectores lentos.
  • Data freshness e SLA de dados.

Segurança, Acesso e Governança.

  • Autenticação de usuários: modo básico e integração com Keycloak (OIDC)
  • Controle de acesso por workspace e permissões.
  • Gerenciamento de segredos com OpenBao e Kubernetes Secrets.
  • Criptografia de credenciais em repouso.
  • Auditoria de ações e acessos.
  • LGPD/GDPR: filtragem de dados sensíveis na origem.
  • Mascaramento de campos PII em pipelines.
  • Isolamento de workspaces multi-tenant.

Pipelines na Prática.

Melhores Práticas e Troubleshooting.

  • Padronização de nomenclatura de conexões e streams.
  •  Estratégias de retry e idempotência.
  • Gerenciamento de schema drift.
  • Depuração de erros comuns de conectores.
  • Diagnóstico de problemas de rede e firewall.
  • Recuperação de sincronizações com falha.
  • Atualização de conectores em produção.
  • Contribuindo com a comunidade Airbyte

Pré-requisitos de conhecimento

  • Conhecimento básico Linux.
  • Conhecimento básico de redes (proxy, gateway,etc).

Requisitos dos alunos

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM: 8 GB.
  • Espaço em Disco: 20GB.
  • Processador: i5 ou i7 a partir da segunda geração ou similar.
  • Sistemas Operacionais: GNU/Linux, Windows.
  • Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

  • 32 Horas de duração.

Modalidades do Treinamento.

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão online/ao vivo do treinamento.
  • In Company (Presencial ou Online) - Turmas fechadas para empresas a custo único para até 15 alunos.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Airbyte e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Inscrições, Informações e Valores

Powered by BreezingForms


Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Airbyte, e cursos Airbyte. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 22 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

5.007 profissionais capacitados em 399 turmas ministradas.

Atuação global, 845 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.980 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutores

Marcio Junior Vieira

  • 27 anos de experiência em TI, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Atuou como Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo e do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Atuou como Pesquisador pelo UFG/CIAP (Centro de Colaboração Interinstitucional de Inteligência Artificial Aplicada às Políticas Públicas) e no grupo Latitude (Laboratório de Tecnologias da Tomada de Decisão) da UNB.
  • Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
  • Graduado em Tecnologia em Informática (2004) e pós-graduado em Software Livre (2005) ambos pela UFPR.
  • Palestrante FLOSS em: The Developers Conference (TDC), FISL, Latinoware, Campus Party, Pentaho Day, Ticnova, PGConf Brasil e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas edições de 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e Kafka.
  • Contribuidor de projetos Open Source ou Free Software internacionais, tais como Pentaho, LimeSurvey, SuiteCRM, Camunda, Operaton e Apache Hop.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable, Camunda e Operaton.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).

Log in