ClickHouse

Treinamento ClickHouse

Sobre o Treinamento

O treinamento ClickHouse apresenta os conceitos, arquitetura e operação do ClickHouse, o banco de dados analítico colunar open source mais rápido do mundo, voltado para analytics em tempo real, observabilidade, séries temporais e processamento de grandes volumes de dados.
Durante o treinamento, os participantes aprenderão na prática como instalar, configurar e administrar ambientes ClickHouse on-premise, modelar tabelas otimizadas para cargas OLAP, construir pipelines de ingestão e integrar o ClickHouse com ferramentas modernas de dados como Apache Airflow, dbt e Apache Superset.
O treinamento aborda desde os fundamentos do modelo colunar e da engine MergeTree até a construção de pipelines analíticos completos, explorando integração com tecnologias como Airbyte, Apache Kafka e Apache Iceberg, passando por replicação, alta disponibilidade, segurança e monitoramento em ambientes de produção.


Turmas

Somente no modelo corporativo no momento.

Dificuldade:
Intermediário

Aplicabilidade.

Este treinamento foi desenvolvido utilizando ClickHouse 26.3 LTS e foi atualizado pela última vez em 25 de Maio de 2026.

Conteúdo Programático

Introdução ao ClickHouse.

  • O que é ClickHouse e por que é o banco analítico mais rápido do mundo.
  • Arquitetura colunar: diferenças de bancos OLTP e OLAP.
  • ClickHouse OSS vs ClickHouse Cloud.
  • Casos de uso: observabilidade, analytics, logs, time series, BI.
  • Comparativo: ClickHouse x DuckDB x Druid x StarRocks x BigQuery.
  • Ecossistema e comunidade.

Instalação e Configuração.

  • Instalação via pacote (Linux/Debian/RPM).
  • Instalação via Docker e Docker Compose.
  • Deploy em Kubernetes com Helm Chart.
  • Estrutura de diretórios e arquivos de configuração (config.xml, users.xml).
  • Primeiro acesso: cliente clickhouse-client e Play UI.

Arquitetura Interna.

  • MergeTree Engine: o coração do ClickHouse.
  • Famílias de engines: ReplacingMergeTree, AggregatingMergeTree, CollapsingMergeTree, SummingMergeTree.
  • Parts, granules e compressão de dados.
  • Mutations e merges em background.
  • Shards e réplicas.
  • ZooKeeper e ClickHouse Keeper.

Modelagem de Dados.

  • Tipos de dados disponíveis (Int, Float, String, DateTime, Array, Map, Nested, JSON).
  • Criando tabelas otimizadas para OLAP.
  • Chaves de ordenação (ORDER BY) e chaves de partição (PARTITION BY).
  • Primary key vs sorting key.
  • Índices secundários (data skipping indexes).
  • Materialized Views: conceito e uso.
  • Dicionários (Dictionaries).

Ingestão de Dados.

SQL no ClickHouse.

  • Dialeto SQL do ClickHouse: compatibilidades e diferenças.
  • Funções de agregação: sum, count, uniq, quantile, topK.
  • Funções de array e manipulação de JSON.
  • Window functions.
  • CTEs e subqueries.
  • JOINS: tipos suportados e limitações.
  • EXPLAIN e análise de plano de execução.

Replicação e Alta Disponibilidade

  • Conceito de sharding e replicação no ClickHouse.
  • ReplicatedMergeTree: configuração e funcionamento.
  • ClickHouse Keeper: substituindo o ZooKeeper.
  • Distributed Engine: consultas em múltiplos shards.
  • Failover e recuperação de réplicas.

Administração e Operação.

  • Gerenciamento de usuários e permissões (RBAC).
  • Quotas e limites de recursos por usuário/perfil.
  • Monitoramento com system tables.
  • Integração com Prometheus e Grafana.
  • Backup e restore (clickhouse-backup, disk S3/MinIO).
  • Tuning de performance: memória, threads, compressão.
  • Manutenção: OPTIMIZE, TTL, limpeza de parts.

ClickHouse com BI e Ferramentas.

Melhores Práticas e Troubleshooting.

  • Anti-patterns mais comuns.
  • Diagnóstico de queries lentas.
  • Gestão de TTL e expiração de dados.
  • Atualização de versão em produção.
  • Contribuindo com a comunidade ClickHouse.

Carga Horária:

  • 24 Horas.

Pré-requisitos dos Participantes:

  • Conhecimentos básicos de Linux.
  • Conhecimentos de Banco de Dados e SQL.
  • Noções de Engenharia de Dados e analytics (OLAP/BI).
  • Familiaridade com conceitos de Big Data é recomendada, mas não obrigatória.
  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

  • Memória RAM : 12 GB.
  • Espaço em Disco: 50GB.
  • Processador: 6 Cores.
  • Sistemas Operacionais: Qualquer um com suporte e Virtualização com VirtualBox. Deve estar ativo a Virtualização na BIOS do equipamento.
  • Oracle VM VirtualBox ( https://www.virtualbox.org/ ).

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares ClickHouse e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Inscrições, Informações e Valores

Powered by BreezingForms


Instrutor

Marcio Junior Vieira

  • 27 anos de experiência em TI, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Atuou como Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo e do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Atuou como Pesquisador pelo UFG/CIAP (Centro de Colaboração Interinstitucional de Inteligência Artificial Aplicada às Políticas Públicas) e no grupo Latitude (Laboratório de Tecnologias da Tomada de Decisão) da UNB.
  • Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
  • Graduado em Tecnologia em Informática (2004) e pós-graduado em Software Livre (2005) ambos pela UFPR.
  • Palestrante FLOSS em: The Developers Conference (TDC), FISL, Latinoware, Campus Party, Pentaho Day, Ticnova, PGConf Brasil e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas edições de 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e Kafka.
  • Contribuidor de projetos Open Source ou Free Software internacionais, tais como Pentaho, LimeSurvey, SuiteCRM, Camunda, Operaton e Apache Hop.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable, Camunda e Operaton.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).

Log in