Apache Fluss

Treinamento Apache Fluss

Sobre o Treinamento

O treinamento Apache Fluss apresenta os conceitos, arquitetura e operação do Apache Fluss, uma moderna plataforma Streaming Lakehouse voltada para processamento contínuo, analytics em tempo real e integração entre streaming e Data Lakes.

Durante o treinamento, os participantes aprenderão na prática como realizar deploys, administrar ambientes Apache Fluss e integrar pipelines modernos utilizando Apache Flink, compreendendo os principais componentes arquiteturais, estratégias de armazenamento, tabelas streaming e cenários de uso em arquiteturas modernas de dados.

O treinamento aborda desde os fundamentos de Streaming Lakehouse até a construção de pipelines analíticos em tempo real, explorando integração com tecnologias como Apache Flink, Apache Iceberg e Data Lakes modernos.


Turmas

Somente no modelo corporativo no momento.

Dificuldade:
Avançado.

Aplicabilidade.

Este treinamento foi desenvolvido utilizando Apache Fluss 0.9.1 e Apache Flink 2.2.0 e foi atualizado pela última vez em 25 de Maio de 2026

Conteúdo Programático

Introdução ao Streaming Lakehouse

  • Evolução das arquiteturas de dados.
  • Batch vs Streaming.
  • Conceitos de Lakehouse.
  • Limitações de arquiteturas tradicionais.
  • Problemas de latência e pequenas escritas em Data Lakes.
  • O conceito de Streaming Lakehouse.
  • Onde o Apache Fluss se encaixa.
  • Integração com Apache Flink.
  • Casos de uso modernos: Real-Time Analytics, Streaming ETL, Feature Store, AI Pipelines, Real-Time Dashboards.

Arquitetura do Apache Fluss

  • Componentes da arquitetura.
  • Coordinator Server.
  • Tablet Servers.
  • Metadata Management.
  • Buckets e Partitions.
  • Replicação e tolerância a falhas.
  • Streaming Storage.
  • Formato colunar.
  • Streaming Reads e Writes.
  • Integração com Lakehouse Storage.
  • Arquitetura de referência.

Deploy e Instalação do Apache Fluss

  • Requisitos do ambiente.
  • Estrutura do cluster.
  • Deploy local.
  • Deploy distribuído.
  • Docker Compose.
  • Configurações básicas.
  • Integração com ZooKeeper.
  • Configuração de armazenamento.
  • Inicialização do cluster.
  • Troubleshooting inicial.
  • Monitoramento básico.

Conceitos Fundamentais do Fluss

  • Log Tables.
  • Primary Key Tables.
  • Buckets.
  • Partitions.
  • Offset Management.
  • Changelog Streams.
  • Row vs Columnar Access.
  • Modelagem de tabelas.
  • Estratégias de particionamento.
  • Casos de uso por tipo de tabela.

Apache Flink + Apache Fluss

  • Integração nativa com Flink.
  • Flink Connector.
  • Streaming ETL.
  • Stateful Stream Processing.
  • Event Time.
  • Processamento contínuo.
  • Leitura e escrita em Fluss.
  • Consultas analíticas em tempo real.
  • Union Reads.
  • Pipelines streaming modernos.

Streaming Lakehouse na Prática

  • Conceito de Union Read.
  • Dados em tempo real + histórico.
  • Integração com Data Lakes.
  • Apache Paimon.
  • Apache Iceberg.
  • Camada quente e camada histórica.
  • Compactação e tiering.
  • Analytics em tempo real.
  • Arquiteturas modernas de Lakehouse.

Operações e Administração

  • Escalabilidade horizontal.
  • Balanceamento.
  • Gestão de buckets.
  • Monitoramento.
  • Métricas.
  • Troubleshooting.
  • Backup e recuperação.
  • Estratégias de retenção.
  • Performance tuning.
  • Custos operacionais.

Casos de Uso e Arquiteturas Modernas

  • Real-Time Analytics.
  • Streaming Dashboards.
  • IoT Pipelines.
  • Customer 360.
  • Fraud Detection.
  • Real-Time ETL.
  • AI e contexto em tempo real.
  • Streaming-first architectures.
  • Simplificação arquitetural com Streaming Lakehouse.

Carga Horária:

  • 24 Horas.

Pré-requisitos dos Participantes:

  • Conhecimentos básicos de Linux.
  • Conhecimentos de Banco de Dados e SQL.
  • Noções de Engenharia de Dados, Streaming ou Data Lakes.
  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

  • Memória RAM : 12 GB.
  • Espaço em Disco: 50GB.
  • Processador: 6 Cores.
  • Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox. Deve estar ativo a Virtualização na BIOS do equipamento.
  • Oracle VM VirtualBox ( https://www.virtualbox.org/ ).

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Fluss e Apache Flink e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Inscrições, Informações e Valores

Powered by BreezingForms


Instrutor

Marcio Junior Vieira

  • 27 anos de experiência em TI, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Atuou como Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo e do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Atuou como Pesquisador pelo UFG/CIAP (Centro de Colaboração Interinstitucional de Inteligência Artificial Aplicada às Políticas Públicas) e no grupo Latitude (Laboratório de Tecnologias da Tomada de Decisão) da UNB.
  • Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
  • Graduado em Tecnologia em Informática (2004) e pós-graduado em Software Livre (2005) ambos pela UFPR.
  • Palestrante FLOSS em: The Developers Conference (TDC), FISL, Latinoware, Campus Party, Pentaho Day, Ticnova, PGConf Brasil e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas edições de 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e Kafka.
  • Contribuidor de projetos Open Source ou Free Software internacionais, tais como Pentaho, LimeSurvey, SuiteCRM, Camunda, Operaton e Apache Hop.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable, Camunda e Operaton.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).

Log in