Treinamento ClickHouse
Sobre o Treinamento
O treinamento ClickHouse apresenta os conceitos, arquitetura e operação do ClickHouse, o banco de dados analítico colunar open source mais rápido do mundo, voltado para analytics em tempo real, observabilidade, séries temporais e processamento de grandes volumes de dados.
Durante o treinamento, os participantes aprenderão na prática como instalar, configurar e administrar ambientes ClickHouse on-premise, modelar tabelas otimizadas para cargas OLAP, construir pipelines de ingestão e integrar o ClickHouse com ferramentas modernas de dados como Apache Airflow, dbt e Apache Superset.
O treinamento aborda desde os fundamentos do modelo colunar e da engine MergeTree até a construção de pipelines analíticos completos, explorando integração com tecnologias como Airbyte, Apache Kafka e Apache Iceberg, passando por replicação, alta disponibilidade, segurança e monitoramento em ambientes de produção.
Turmas
Somente no modelo corporativo no momento.
Dificuldade:Intermediário
Aplicabilidade.
Este treinamento foi desenvolvido utilizando ClickHouse 26.3 LTS e foi atualizado pela última vez em 25 de Maio de 2026.
Conteúdo Programático
Introdução ao ClickHouse.
- O que é ClickHouse e por que é o banco analítico mais rápido do mundo.
- Arquitetura colunar: diferenças de bancos OLTP e OLAP.
- ClickHouse OSS vs ClickHouse Cloud.
- Casos de uso: observabilidade, analytics, logs, time series, BI.
- Comparativo: ClickHouse x DuckDB x Druid x StarRocks x BigQuery.
- Ecossistema e comunidade.
Instalação e Configuração.
- Instalação via pacote (Linux/Debian/RPM).
- Instalação via Docker e Docker Compose.
- Deploy em Kubernetes com Helm Chart.
- Estrutura de diretórios e arquivos de configuração (config.xml, users.xml).
- Primeiro acesso: cliente clickhouse-client e Play UI.
Arquitetura Interna.
- MergeTree Engine: o coração do ClickHouse.
- Famílias de engines: ReplacingMergeTree, AggregatingMergeTree, CollapsingMergeTree, SummingMergeTree.
- Parts, granules e compressão de dados.
- Mutations e merges em background.
- Shards e réplicas.
- ZooKeeper e ClickHouse Keeper.
Modelagem de Dados.
- Tipos de dados disponíveis (Int, Float, String, DateTime, Array, Map, Nested, JSON).
- Criando tabelas otimizadas para OLAP.
- Chaves de ordenação (ORDER BY) e chaves de partição (PARTITION BY).
- Primary key vs sorting key.
- Índices secundários (data skipping indexes).
- Materialized Views: conceito e uso.
- Dicionários (Dictionaries).
Ingestão de Dados.
- Inserção via clickhouse-client e HTTP API.
- Integração com Apache Kafka (Kafka Engine).
- Integração com Airbyte (destination ClickHouse).
- Leitura de arquivos CSV, Parquet, JSON, ORC direto no ClickHouse.
- Table Engines externos: S3/MinIO, PostgreSQL.
- Batch insert vs streaming insert: boas práticas.
SQL no ClickHouse.
- Dialeto SQL do ClickHouse: compatibilidades e diferenças.
- Funções de agregação: sum, count, uniq, quantile, topK.
- Funções de array e manipulação de JSON.
- Window functions.
- CTEs e subqueries.
- JOINS: tipos suportados e limitações.
- EXPLAIN e análise de plano de execução.
Replicação e Alta Disponibilidade
- Conceito de sharding e replicação no ClickHouse.
- ReplicatedMergeTree: configuração e funcionamento.
- ClickHouse Keeper: substituindo o ZooKeeper.
- Distributed Engine: consultas em múltiplos shards.
- Failover e recuperação de réplicas.
Administração e Operação.
- Gerenciamento de usuários e permissões (RBAC).
- Quotas e limites de recursos por usuário/perfil.
- Monitoramento com system tables.
- Integração com Prometheus e Grafana.
- Backup e restore (clickhouse-backup, disk S3/MinIO).
- Tuning de performance: memória, threads, compressão.
- Manutenção: OPTIMIZE, TTL, limpeza de parts.
ClickHouse com BI e Ferramentas.
- Integração com Apache Superset.
- Integração com Grafana (datasource ClickHouse).
- Integração com dbt (dbt-clickhouse).
- Conectores JDBC/ODBC para ferramentas externas.
- Pipelines Airbyte - ClickHouse - dbt - Superset.
Melhores Práticas e Troubleshooting.
- Anti-patterns mais comuns.
- Diagnóstico de queries lentas.
- Gestão de TTL e expiração de dados.
- Atualização de versão em produção.
- Contribuindo com a comunidade ClickHouse.
Carga Horária:
- 24 Horas.
Pré-requisitos dos Participantes:
- Conhecimentos básicos de Linux.
- Conhecimentos de Banco de Dados e SQL.
- Noções de Engenharia de Dados e analytics (OLAP/BI).
- Familiaridade com conceitos de Big Data é recomendada, mas não obrigatória.
- Todos os participantes devem trazer um notebook para realizar as atividades práticas.
- O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
- Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.
Requisitos mínimos de hardware:
- Memória RAM : 12 GB.
- Espaço em Disco: 50GB.
- Processador: 6 Cores.
- Sistemas Operacionais: Qualquer um com suporte e Virtualização com VirtualBox. Deve estar ativo a Virtualização na BIOS do equipamento.
- Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
Material
Serão disponibilizados os seguintes materiais aos alunos do treinamento:
- Todos os softwares ClickHouse e acessórios na sua última versão estável.
- Material próprio em Português do Brasil.
- Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
- Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
- Apostilas com exercícios práticos desenvolvidos no treinamento.
- Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
Metodologia
- Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas
Inscrições, Informações e Valores
Instrutor
Marcio Junior Vieira
- 27 anos de experiência em TI, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
- CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
- Atuou como Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo e do MBA Artificial Intelligence e Machine Learning da FIAP.
- Atuou como Pesquisador pelo UFG/CIAP (Centro de Colaboração Interinstitucional de Inteligência Artificial Aplicada às Políticas Públicas) e no grupo Latitude (Laboratório de Tecnologias da Tomada de Decisão) da UNB.
- Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
- Graduado em Tecnologia em Informática (2004) e pós-graduado em Software Livre (2005) ambos pela UFPR.
- Palestrante FLOSS em: The Developers Conference (TDC), FISL, Latinoware, Campus Party, Pentaho Day, Ticnova, PGConf Brasil e FTSL.
- Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas edições de 2013 e 2014.
- Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
- Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
- Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e Kafka.
- Contribuidor de projetos Open Source ou Free Software internacionais, tais como Pentaho, LimeSurvey, SuiteCRM, Camunda, Operaton e Apache Hop.
- Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable, Camunda e Operaton.
- Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).