Treinamento Analise de Dados com Apache Hive, Impala e Pig
Sobre o treinamento
O treinamento é voltado para analistas de dados que querem acessar, manipular, transformar e analisar conjuntos de dados complexos no ecossistemas de Big Data como Hadoop usando as ferramentas Apache Hive, Apache Impala e Apache Pig. O curso foca no uso das ferramentas, suas funcionalidades e características, e não na instalação da infraestrutura que é apresentado um overview, todo ambiente será entregue em VMs previamente instalada em GNU-Linux/Debian e versões Apache ou Cloudera do Hadoop HDFS, Spark, Hive, Impala e Pig. Nosso conteúdo programático que foi construído para formação de especialistas em analise de dados com Hive, Impala e Hive, O mesmo mescla conhecimentos conceituais de analise e ciência de dados, conhecimentos de negócio, assim como integração e programação.
Modalidade do Treinamento.
- Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
- On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
- In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.
Conteúdo Programático
Conceitual do Ecossistema Hadoop.
- O que é Big Data?
- Os 4 V's principais do Big Data.
- Os Profissionais Cientista de Dados (Data Scientist) e Engenheiro de Dados (Data Engineer).
- Data Lake.
- IoT - Internet das Coisa e Big Data.
- Principais Ferramentas de Big Data.
- Licenciamento (Free Software X Open Source).
Introdução ao Hive, Impala e Pig.
- Apache Hive.
- Apache Impala.
- Apache Pig.
- Schema e Datastore.
- Arquitetura.
- Comparando Hive X Impala X Pig.
- Hive X Presto.
- Comparação do Hive,Impala e banco de dados tradicionais.
- Empresas usando Hive, Impala e Pig no Brasil e no Mundo.
- Casos de uso do Hive, Impala e Pig.
- Comunidades Hive, Impala e Pig.
- Versões do Hive, Impala e Pig.
Overview de instalação do Hive, Impala e Pig.
- Pré-requisitos de instalação.
- variáveis de ambiente.
- Principais arquivos de configuração.
Analisando Dados com Apache Hive e Apache Impala.
- Banco de Dados e Tabelas.
- Tipos de dados.
- HCatalog.
- Hive QL.
- Hive e Impala Query Language Syntax.
- Usando o HUE para executar Querys.
- Beeline e Hive Shell.
- Impala Shell.
- Impala Metadata Caching.
- Operadores.
- Funções escalares.
- Funções de Agregação.
- Union e Join.
- Trabalhando com NULL.
- Alias.
- Filtros, Ordenações e Limites de Resultados.
- Expressões regulares.
- Analise de Texto.
Gerenciamento de Dados.
- Datatorage.
- Criando tabelas e bancos de dados.
- Carregando dados.
- Alterando tabelas e bancos de dados.
- Criando e usando Views.
- Armazenando resultados de Consultas.
Formato de Dados.
- Os principais formatos de dados.
- Apache Avro.
- Apache Parquet.
- Apache ORC.
- Escolhendo o formato de dados ideal.
Particionamento.
- Introdução a Particionamento.
- Alta performance.
- Particionamento de tabelas.
- Carregando dados em tabelas particionadas.
Otimização do Apache Hive e Apache Impala.
- Query Performance.
- Bucketing.
- Hive com Spark.
- Impala Performance.
Extendendo o Hive e o Impala.
- UDFs.
- SerDes.
Melhorias e Futuro.
- Hive Mall.
- Hive LLAP.
- TEZ.
Analisando dados com Pig
- Tipo de Dados.
- Pig e MapReduce.
- Componentes.
- Modos de Execução.
- PigLatin.
- Scripts Pig.
- Executando scripts pig.
- Integrando Pig e Hive.
- Integrando Pig e Impala.
Carga Horária.
- 32 Horas.
Público Alvo.
- Analistas de Dados.
- Engenheiros de Dados.
- DBAs
- Desenvolvedores.
- Cientistas de Dados.
Pré-requisitos.
- Conhecimento básico em algum sistema operacional (Windows, Linux ou MAC)
- Conhecimento básico de banco de dado e SQL.
- Conhecimento básico de programação (Scripts SQL).
Requisitos:
- Todos os participantes devem trazer um notebook para realizar as atividades práticas.
- O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
- Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.
Requisitos Recomendados de Hardware e Software.
- Memória RAM: 8GB.
- Espaço em Disco: 20GB.
- Processador: 64 bits (chipsts de x64).
- CPU: 2 núcleos.
- Sistemas Operacionais: GNU/Linux, Windows ou MacOS.
- VirtualBox.
Material.
Serão disponibilizados os seguintes materiais aos alunos do treinamento:
- Todos os softwares Hive, Impala e Pig e acessórios na sua última versão estável.
- Material próprio em Português do Brasil.
- Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
- Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
- Apostilas com exercícios práticos desenvolvidos no treinamento.
- Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
- Brindes: Caneta, Pasta e Bloco de Anotações. (Somente em presenciais)
Metodologia.
- O treinamento apresenta uma empresa fictícia onde será implantado as ferramentas de analise e todas as fases da implantação para analise usando Hive, Impala e Pig.
- Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.
Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Hive, Impala e Pig e cursos Hive, Impala e Pig. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.
Inscrições, Informações e Valores
Diferenciais da Ambiente Livre.
A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.
3.535 profissionais capacitados em 325 turmas ministradas.
Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.
Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.
Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.
Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.
Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.
Instrutor

Marcio Junior Vieira
- 22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
- CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
- Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
- Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
- Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
- Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
- Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
- Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
- Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
- Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
- Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
- Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
- Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurvey, SuiteCRM e Camunda.
- Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
- Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
- Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
- Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)