Treinamento Administrador Apache Hadoop
Sobre o Treinamento
Este treinamento é recomendado a técnicos que já conheçam os conceitos e o básicos do Hadoop e queiram ampliar seus conhecimento sobre o Hadoop Database ou HBase que é um banco de dados do ecossistema Hadoop distribuído e colunar. O treinamento pode ser ministrado nas versão open source da Apache ou nas comerciais Cloudera e Hortonworks.
O treinamento Administrador Apache Hadoop prepara o aluno para ser capaz de customizar a utilização, ajustar performance, prestar suporte e resolver problemas relacionados aos produtos, dominando elementos de monitoramento de cluster, governança, segurança e solução de problemas. Compreender a abrangência de todas as medidas necessárias para operar e manter um Cluster Hadoop. Desde a instalação e configuração por meio do balanceamento de carga e tunning, e autorizar usuários a uso de cluster. Saber Dimensionar e implementar vários cluster Hadoop, saber acelerar seu funcionamento e quais ferramentas e técnicas melhoram o desempenho, de forma a ajustar a performance. Estar apto a prestar suporte e resolver problemas relacionados aos produtos, fazer backups e gestão de recuperação de desastres, configurar HDFS de alta disponibilidade, adicionar um novo serviço, além de implementar medidas de segurança e funcionalidade multi-usuário.
Calendário de turmas
Treinamento somente no formato in-company.
Objetivo
Ministrar os conceitos e técnicas de administração de um cluster Hadoop.
Público Alvo
O Treinamento Administrador Hadoop destina-se a profissionais Administradores de sistemas, Cientistas de dados e Engenheiros de dados.
Conteúdo Programático:
Introdução ao Hadoop
- Introdução ao Hadoop.
- Histórico do projeto Apache Hadoop.
- Características do Hadoop.
- Conceitos fundamentais.
- Componentes do núcleo do Hadoop.
- Ecossistema Hadoop.
- Exemplos de casos de uso.
- Principais empresas que usam Hadoop no Mundo.
- Principais empresas que usam Hadoop no Brasil.
- Apache Software Foundation.
HDFS – Hadoop File System.
- Arquitetura do HDFS.
- Características do HDFS.
- Escrevendo e lendo arquivos.
- Considerações ao NameNode.
- Segurança no HDFS.
- Usando Interface Web do NameNode.
- Usando o Shell Hadoop.
- Inserindo dados de fontes externas com flume.
- Inserindo dados de banco de dados relacionais com Sqoop.
- Interfaces REST.
- Melhores praticas de Importação de dados.
YARN e MapReduce.
- Conceitual sobre YARN e MapReduce.
- Conceitos Básicos de MapReduce.
- Cluster YARN.
- Recuperação de falha.
- Usando Interface Web YARN.
Planejando o Cluster Hadoop.
- Considerações gerais.
- Seleção de Hardware.
- Considerações de Rede.
- Configuração de Nodes.
- Planejando o gerenciamento do Cluster.
Instalação e configurações Hadoop.
- Requisitos de instalação.
- Pacotes de instalação.
- Modo de Instalação (SingleCluster, DistribuidMode).
- Configuração do ambiente de rede.
- Clusterizando o Hadoop.
- Configuração inicial de Performance do HDFS.
- Configuração inicial de Performance do YARN.
- Logs no Hadoop.
Instalação e Configurando o Ecossistema.
- Instalando o Apache Hive.
- Instalando Impala (Somente em Cloudera).
- Instalando Apache Pig.
- Instalando Apache HBase.
- Instalando Apache Spark.
Aplicações Clientes Hadoop.
- Introdução a aplicações Clientes Hadoop.
- Introdução ao HUE.
- Instalação e Configuração do Hue.
- Instalando e Configurando HUE.
- HUE autenticação e autorização
Segurança Hadoop.
- Conceitos de Segurança no Hadoop.
- Introdução ao Kerberos.
- Segurança no Cluster Hadoop com Kerberos.
Gerenciando com Hadoop Ambari (Apache e Hortonworks).
- Introdução ao Ambari.
- Características do Ambari.
- Gerenciando um Cluster Hadoop.
- Monitorando um Cluster Hadoop.
Gerenciando com Cloudera Manager (Somente Cloudera).
- Introdução ao Cloudera Manager.
- Características do Cloudera Managament.
- Gerenciando um Cluster Hadoop.
- Monitorando um Cluster Hadoop.
Hadoop Cluster.
- Parâmetros de Configuração.
- Configurando as Portas do Hadoop.
- Configurando o HDFS para alta disponibilidade.
Gerenciando e Agendando Jobs.
- Gerenciando e Rodando Jobs.
- Agendando Jobs Hadoop.
- Impala Query Schedule.
Manutenção do Cluster.
- HDFS Status.
- Copiando dados entre Clusters.
- Balanceamento de Clusters.
- Tunning
- Atualização do Cluster
Pré-requisitos de Conhecimento
- Conhecimento básico Linux.
- Conhecimento básico de redes (proxy, gateway,etc)
Requisitos dos Alunos
- Todos os participantes devem trazer um notebook para realizar as atividades práticas.
- O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
- Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.
Requisitos mínimos de hardware
- Memória RAM: 12GB (Caso queira o treinamento em Hortonworks deve ter 16GB de RAM)
- Espaço em Disco: 20GB.
- Processador: i5 ou i7 a partir da segunda geração ou similar.
- Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
- Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.
Carga Horária
- 32 Horas de Duração.
- 100% Presencial
Material
Serão disponibilizados os seguintes materiais aos alunos do treinamento:
- Todos os softwares Apache Hadoop e acessórios na sua última versão estável (no caso de Cloudera os alunos devem baixar o Cloudera QuickStart VMs).
- Material próprio em Português do Brasil.
- Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
- Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
- Apostilas com exercícios práticos desenvolvidos no treinamento.
- Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
- Caneta, Pasta e Bloco de Anotações.
Metodologia
- Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.
Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Administrador Hadoop, e cursos sobre Administrador Hadoop. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.
Diferenciais da Ambiente Livre.
A Ambiente Livre tem 19 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.
3.535 profissionais capacitados em 325 turmas ministradas.
Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.
Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.
Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.
Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.
Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.
Inscrições, Informações e Valores
Instrutor

Marcio Junior Vieira
- 22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
- CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
- Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
- Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
- Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
- Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
- Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
- Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
- Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
- Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
- Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
- Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
- Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurvey, SuiteCRM e Camunda.
- Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
- Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
- Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
- Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)