Apache Iceberg

Treinamento Apache Iceberg

O treinamento em Apache Iceberg tem foco em aprofundar o conhecimento de engenheiros de dados sobre um dos formatos de tabela mais avançados para ambientes de Big Data. Além dos conceitos, vantagens e arquitetura, os profissionais aprenderão a gerenciar tabelas Iceberg, otimizando particionamento, leitura incremental e time travel para seu ambiente de dados. O treinamento abrange desde os fundamentos até técnicas avançadas.

Calendário de turmas.

Somente no modelo corporativo no momento.

Dificuldade: Média.

Aplicabilidade.

Este treinamento foi desenvolvido usando o Apache Iceberg 1.8.1. e foi modificado pela última vez em 1 de Março de 2025.

Conteúdo Programático

Conceitual.

  • Introdução a Big Data.
  • Arquivos serializados.
  • Formato Colunar.
  • Data Swamp.
  • Datawarehouse X Data Lake X Data Lakehouse.
  • O Software Apache Iceberg.
  • Motivações do Apache Iceberg.
  • Software Livre x Open Source.
  • Licenciamento.
  • Apache Software Foundation.
  • História e evolução do Apache Iceberg.
  • Empresas usando Iceberg no Mundo.
  • Empresas usando Iceberg no Brasil.
  • Comunidade Apache Iceberg.
  • Versões do Apache Iceberg.
  • Vendedores e Distribuições do Apache Iceberg.

Apache Iceberg

  • Arquitetura do Apache Iceberg.
  • Vantagens e benefícios do uso do Apache Iceberg.
  • Apache Iceberg X Parquet x JSON x CSV x Apache ORC.
  • Compreensão dos tipos de dados suportados.
  • Metadados: Manifests, Manifest Lists, e Snapshots.
  • Suporte a ACID (Atomicidade, Consistência, Isolamento e Durabilidade).
  • Estratégias de particionamento oculto.
  • Indexação de dados.

Instalando o Apache Iceberg

  • Instalação do Apache Iceberg em diferentes ambientes (local, cluster, cloud).
  • Configuração inicial e melhores práticas.
  • Construção de tabelas Iceberg.

Leitura e escrita do Apache Iceberg.

  • Como escrever dados no formato Iceberg usando diversas linguagens (Python, Java, Scala).
  • Modos de escrita: Append, Overwrite e Merge.
  • Otimização da escrita para grandes volumes de dados.
  • Como ler dados Iceberg em diferentes ambientes e linguagens.
  • Técnicas de leitura incremental (Read Snapshots, Time Travel).
  • Otimização da leitura para consultas eficientes.

Otimização e Desempenho.

  • Estratégias para otimizar consultas em tabelas Iceberg.
  • Uso de índices e metadados para acelerar leituras.
  • Técnicas de compactação e remoção de arquivos órfãos (garbage collection).

Compactação e Particionamento.

  • Compactação de dados para reduzir fragmentação de arquivos.
  • Particionamento oculto e dinâmico.
  • Estratégias avançadas para otimizar particionamento.

Integração com Ferramentas de Big Data.

Casos de Uso.

Carga Horária.

  • 24 Horas.

MODALIDADES DE TREINAMENTO

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Pré-Requisitos.

  • Conhecimento básico em algum Sistema Operacional (Windows, Linux ou MAC)
  • Conhecimento básico do Ecossistema de Big Data.

Requisitos:

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos Recomendados de Hardware.

  • Memória RAM: 8GB.
  • Espaço em Disco: 20GB.
  • Processador: 64 bits (chipsets de x64).
  • CPU: 2 núcleos.
  • Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.

Material.

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Iceberg e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas com exercícios práticos (hacks) desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia.

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Apache Iceberg e cursos Apache Iceberg . caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Inscrições, Informações e Valores

Powered by BreezingForms

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 20 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

4.245 profissionais capacitados em 351 turmas ministradas.

Atuação global, 833 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutor

Marcio Junior Vieira

  • 24 anos de experiência em tecnologia da informação, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Pesquisador pela UFG - Universidade de Goiás no CIAP - Centro de IA Aplicada às Políticas Públicas.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay, PgConf e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
  • Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurveySuiteCRM e Camunda.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com ActivitiFlowable e Camunda.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
  • Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
  • Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

Log in