Treinamento Apache Fluss
Sobre o Treinamento
O treinamento Apache Fluss apresenta os conceitos, arquitetura e operação do Apache Fluss, uma moderna plataforma Streaming Lakehouse voltada para processamento contínuo, analytics em tempo real e integração entre streaming e Data Lakes.
Durante o treinamento, os participantes aprenderão na prática como realizar deploys, administrar ambientes Apache Fluss e integrar pipelines modernos utilizando Apache Flink, compreendendo os principais componentes arquiteturais, estratégias de armazenamento, tabelas streaming e cenários de uso em arquiteturas modernas de dados.
O treinamento aborda desde os fundamentos de Streaming Lakehouse até a construção de pipelines analíticos em tempo real, explorando integração com tecnologias como Apache Flink, Apache Iceberg e Data Lakes modernos.
Turmas
Somente no modelo corporativo no momento.
Dificuldade: Avançado.
Aplicabilidade.
Este treinamento foi desenvolvido utilizando Apache Fluss 0.9.1 e Apache Flink 2.2.0 e foi atualizado pela última vez em 25 de Maio de 2026
Conteúdo Programático
Introdução ao Streaming Lakehouse
- Evolução das arquiteturas de dados.
- Batch vs Streaming.
- Conceitos de Lakehouse.
- Limitações de arquiteturas tradicionais.
- Problemas de latência e pequenas escritas em Data Lakes.
- O conceito de Streaming Lakehouse.
- Onde o Apache Fluss se encaixa.
- Integração com Apache Flink.
- Casos de uso modernos: Real-Time Analytics, Streaming ETL, Feature Store, AI Pipelines, Real-Time Dashboards.
Arquitetura do Apache Fluss
- Componentes da arquitetura.
- Coordinator Server.
- Tablet Servers.
- Metadata Management.
- Buckets e Partitions.
- Replicação e tolerância a falhas.
- Streaming Storage.
- Formato colunar.
- Streaming Reads e Writes.
- Integração com Lakehouse Storage.
- Arquitetura de referência.
Deploy e Instalação do Apache Fluss
- Requisitos do ambiente.
- Estrutura do cluster.
- Deploy local.
- Deploy distribuído.
- Docker Compose.
- Configurações básicas.
- Integração com ZooKeeper.
- Configuração de armazenamento.
- Inicialização do cluster.
- Troubleshooting inicial.
- Monitoramento básico.
Conceitos Fundamentais do Fluss
- Log Tables.
- Primary Key Tables.
- Buckets.
- Partitions.
- Offset Management.
- Changelog Streams.
- Row vs Columnar Access.
- Modelagem de tabelas.
- Estratégias de particionamento.
- Casos de uso por tipo de tabela.
Apache Flink + Apache Fluss
- Integração nativa com Flink.
- Flink Connector.
- Streaming ETL.
- Stateful Stream Processing.
- Event Time.
- Processamento contínuo.
- Leitura e escrita em Fluss.
- Consultas analíticas em tempo real.
- Union Reads.
- Pipelines streaming modernos.
Streaming Lakehouse na Prática
- Conceito de Union Read.
- Dados em tempo real + histórico.
- Integração com Data Lakes.
- Apache Paimon.
- Apache Iceberg.
- Camada quente e camada histórica.
- Compactação e tiering.
- Analytics em tempo real.
- Arquiteturas modernas de Lakehouse.
Operações e Administração
- Escalabilidade horizontal.
- Balanceamento.
- Gestão de buckets.
- Monitoramento.
- Métricas.
- Troubleshooting.
- Backup e recuperação.
- Estratégias de retenção.
- Performance tuning.
- Custos operacionais.
Casos de Uso e Arquiteturas Modernas
- Real-Time Analytics.
- Streaming Dashboards.
- IoT Pipelines.
- Customer 360.
- Fraud Detection.
- Real-Time ETL.
- AI e contexto em tempo real.
- Streaming-first architectures.
- Simplificação arquitetural com Streaming Lakehouse.
Carga Horária:
- 24 Horas.
Pré-requisitos dos Participantes:
- Conhecimentos básicos de Linux.
- Conhecimentos de Banco de Dados e SQL.
- Noções de Engenharia de Dados, Streaming ou Data Lakes.
- Todos os participantes devem trazer um notebook para realizar as atividades práticas.
- O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
- Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.
Requisitos mínimos de hardware:
- Memória RAM : 12 GB.
- Espaço em Disco: 50GB.
- Processador: 6 Cores.
- Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox. Deve estar ativo a Virtualização na BIOS do equipamento.
- Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
Material
Serão disponibilizados os seguintes materiais aos alunos do treinamento:
- Todos os softwares Apache Fluss e Apache Flink e acessórios na sua última versão estável.
- Material próprio em Português do Brasil.
- Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
- Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
- Apostilas com exercícios práticos desenvolvidos no treinamento.
- Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Metodologia
- Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas
Inscrições, Informações e Valores
Instrutor
Marcio Junior Vieira
- 27 anos de experiência em TI, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
- CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
- Atuou como Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo e do MBA Artificial Intelligence e Machine Learning da FIAP.
- Atuou como Pesquisador pelo UFG/CIAP (Centro de Colaboração Interinstitucional de Inteligência Artificial Aplicada às Políticas Públicas) e no grupo Latitude (Laboratório de Tecnologias da Tomada de Decisão) da UNB.
- Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
- Graduado em Tecnologia em Informática (2004) e pós-graduado em Software Livre (2005) ambos pela UFPR.
- Palestrante FLOSS em: The Developers Conference (TDC), FISL, Latinoware, Campus Party, Pentaho Day, Ticnova, PGConf Brasil e FTSL.
- Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas edições de 2013 e 2014.
- Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
- Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
- Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e Kafka.
- Contribuidor de projetos Open Source ou Free Software internacionais, tais como Pentaho, LimeSurvey, SuiteCRM, Camunda, Operaton e Apache Hop.
- Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable, Camunda e Operaton.
- Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).