Administrador Hadoop

Treinamento Administrador Apache Hadoop

Sobre o Treinamento

Este treinamento é recomendado a técnicos que já conheçam os conceitos e o básicos do Hadoop e queiram ampliar seus conhecimento sobre o Hadoop Database ou HBase que é um banco de dados do ecossistema Hadoop distribuído e colunar. O treinamento pode ser ministrado nas versão open source da Apache ou nas comerciais Cloudera e Hortonworks.

Calendário de turmas

Treinamento somente no formato in-company.

Objetivo

Ministrar os conceitos e técnicas de administração de um cluster Hadoop.

Público Alvo

O Treinamento Administrador Hadoop destina-se a profissionais Administradores de sistemas, Cientistas de dados e Engenheiros de dados.

Conteúdo Programático:

Introdução ao Hadoop

  • Introdução ao Hadoop.
  • Histórico do projeto Apache Hadoop.
  • Características do Hadoop.
  • Conceitos fundamentais.
  • Componentes do núcleo do Hadoop.
  • Ecossistema Hadoop.
  • Exemplos de casos de uso.
  • Principais empresas que usam Hadoop no Mundo.
  • Principais empresas que usam Hadoop no Brasil.
  • Apache Software Foundation.

HDFS – Hadoop File System.

  • Arquitetura do HDFS.
  • Características do HDFS.
  • Escrevendo e lendo arquivos.
  • Considerações ao NameNode.
  • Segurança no HDFS.
  • Usando Interface Web do NameNode.
  • Usando o Shell Hadoop.
  • Inserindo dados de fontes externas com flume.
  • Inserindo dados de banco de dados relacionais com Sqoop.
  • Interfaces REST.
  • Melhores praticas de Importação de dados.

YARN e MapReduce.

  • Conceitual sobre YARN e MapReduce.
  • Conceitos Básicos de MapReduce.
  • Cluster YARN.
  • Recuperação de falha.
  • Usando Interface Web YARN.

Planejando o Cluster Hadoop.

  • Considerações gerais.
  • Seleção de Hardware.
  • Considerações de Rede.
  • Configuração de Nodes.
  • Planejando o gerenciamento do Cluster.

Instalação e configurações Hadoop.

  • Requisitos de instalação.
  • Pacotes de instalação.
  • Modo de Instalação (SingleCluster, DistribuidMode).
  • Configuração do ambiente de rede.
  • Clusterizando o Hadoop.
  • Configuração inicial de Performance do HDFS.
  • Configuração inicial de Performance do YARN.
  • Logs no Hadoop.

Instalação e Configurando o Ecossistema.

  • Instalando o Apache Hive.
  • Instalando Impala (Somente em Cloudera).
  • Instalando Apache Pig.
  • Instalando Apache HBase.
  • Instalando Apache Spark.

Aplicações Clientes Hadoop.

  • Introdução a aplicações Clientes Hadoop.
  • Introdução ao HUE.
  • Instalação e Configuração do Hue.
  • Instalando e Configurando HUE.
  • HUE autenticação e autorização

Segurança Hadoop.

  • Conceitos de Segurança no Hadoop.
  • Introdução ao Kerberos.
  • Segurança no Cluster Hadoop com Kerberos.

Gerenciando com Hadoop Ambari (Apache e Hortonworks).

  • Introdução ao Ambari.
  • Características do Ambari.
  • Gerenciando um Cluster Hadoop.
  • Monitorando um Cluster Hadoop.

Gerenciando com Cloudera Maneger (Somente Cloudera).

  • Introdução ao Cloudera Manager.
  • Características do Cloudera Managament.
  • Gerenciando um Cluster Hadoop.
  • Monitorando um Cluster Hadoop.

Hadoop Cluster.

  • Parâmetros de Configuração.
  • Configurando as Portas do Hadoop.
  • Configurando o HDFS para alta disponibilidade.

Gerenciando e Agendando Jobs.

  • Gerenciando e Rodando Jobs.
  • Agendando Jobs Hadoop.
  • Impala Query Schedule.

Manutenção do Cluster.

  • HDFS Status.
  • Copiando dados entre Clusters.
  • Balanceamento de Clusters.
  • Tunning
  • Atualização do Cluster

Pré-requisitos de Conhecimento

  • Conhecimento básico Linux.
  • Conhecimento básico de redes (proxy, gateway,etc)

Requisitos dos Alunos

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM: 12GB (Caso queira o treinamento em Hortonworks deve ter 16GB de RAM)
  • Espaço em Disco: 20GB.
  • Processador: i5 ou i7 a partir da segunda geração ou similar.
  • Sistemas Operacionais: GNU/Linux, Windows ou Mac OS.
  • Todos equipamentos devem ter algum software de virtualização Oracle Virtual Box.

Carga Horária

  • 32 Horas de Duração.
  • 100% Presencial

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Hadoop e acessórios na sua última versão estável (no caso de Cloudera os alunos devem baixar o Cloudera QuickStart VMs).
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

 

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

 

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Administrador Hadoop, e cursos sobre Administrador Hadoop. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Instrutor

Marcio Junior Vieira

  • 19 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
  • Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Professor da Pós-Graduação em Big Data e Data Science da UniBrasil.
  • Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
  • Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, LimeSurveySuiteCRM e Camunda.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com ActivitiFlowable e Camunda.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho).
  • Membro da The Order Of de Bee (membros da comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

Log in