Hadoop Fundamental

Treinamento Apache Hadoop - Big Data Open Source - Fundamental

 

Sobre o Treinamento

O treinamento fundamental em Apache Hadoop prepara profissionais para o mercado de trabalho com Hadoop. Seu conteúdo programático foi desenvolvido para que profissionais possam implementar soluções de Big Data em suas corporações. O mesmo abrange, conceitos , conhecimentos de uso dos softwares, interação programática e atividades práticas.


Calendário de turmas abertas

  1. Curitiba
  • Data: - -
  • Local: Sede da Ambiente Livre
  • Contato
next
prev

Conteúdo Programático

Conceitual Big Data

  • O que é Big Data?
  • Os 4 V's principais do Big Data.
  • O Profissional Cientista de Dados / Data Scientist.
  • Data Lake.
  • IoT - Internet das Coisa e Big Data.
  • Ferramentas de Big Data.
  • Software Livre X Open Source.
  • GPL X BSD/Apache.

Conceitual Apache Hadoop

  • Visão geral sobre Hadoop
  • Características do Hadoop
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop
  • Quem usa o Hadoop
  • Cases do uso Hadoop
  • Uso de Hadware comum.
  • Distribuições do Hadoop

Instalação do Apache Hadoop

  • Requisitos de Instalação
  • Adquirindo os pacotes de Instalação
  • Modo de Instalação ( SingleCluster, Distribuid Mode )
  • Configuração do Ambiente de Rede
  • Configurando Yarn.
  • Criando diretórios físicos para o Filesystem
  • Formatação do FileSystem
  • Inicializando Serviços
  • Iniciando o cluster com seus nós
  • Testando Processos ativos

HDFS

  • Conceitual HDFS.
  • HDFS - Hadoop FileSystem.
  • HDFS - MapReduce Data Flow.
  • HDFS - Arquitetura.
  • Comandos de manipulação do FileSystem.
  • Copiando arquivos para o FileSystem.
  • Listando arquivos no HDFS.
  • Criando e Removendo Diretórios.
  • Interface Web do HDFS.

MapReduce

  • Conceitual Map Reduce.
  • MapReduce X Hadoop.
  • MapReduce - Função Map.
  • MapReduce - Função Reduce.
  • Fluxo de Trabalho.
  • Executando um MapReduce.
  • MapReduce no cluster.
  • Configurando a IDE Eclipse para MapReduce.
  • Criando um novo MapReduce.

CDH - Cloudera Hadoop

  • Usando a Distribuição Cloudera.
  • Componentes do CDH.
  • Cloudera Hadoop X Apache Hadoop.
  • Interface de gerenciamento Web (HUE).

Introdução a outras ferramentas de trabalho

  • Hortonworks.
  • Apache Mahout.
  • Hbase - Banco de dados distribuído orientado a coluna.
  • Pig - Plataforma de alto nível para a criação de programas MapReduce.
  • Hive - uma infraestrutura de data warehouse sobre o Hadoop.
  • Apache Cassandra - Banco de dados distribuído altamente escalável.
  • Apache Sqoop.
  • Pentaho Data Integration e Hadoop.

 

Carga Horária:

  • 24 Horas.

 

Pré-Requisitos:

  • Conhecimento básico em programação Java.
  • Noções de Big Data.
  • Conhecimento de banco de dados e SQL
  • Conhecimento básico de Linux

 

Próxima turma prevista, veja também acima no calendário outras cidades.

  • Data: - -
  • Local: Sede da Ambiente Livre
  • Contato
 

Instrutor

Leia mais...

Treinamento Analise de Dados com Apache Hive, Impala e Pig

Sobre o treinamento

O treinamento é voltado para analistas de dados que querem acessar, manipular, transformar e analisar conjuntos de dados complexos no ecossistemas de Big Data como Hadoop usando as ferramentas Apache Hive, Apache Impala e Apache Pig. O curso foca no uso das ferramentas, suas funcionalidades e características, e não na instalação da infraestrutura que é apresentado um overview, todo ambiente será entregue em VMs previamente instalada em GNU-Linux/Debian e versões Apache ou Cloudera do Hadoop HDFS, Spark, Hive, Impala e Pig. Nosso conteúdo programático que foi construído para formação de especialistas em analise de dados com Hive, Impala e Hive, O mesmo mescla conhecimentos conceituais  de analise e ciência de dados, conhecimentos de negócio, assim como integração e programação.

Modalidade do Treinamento.

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Conteúdo Programático

Conceitual do Ecossistema Hadoop.

  • O que é Big Data?
  • Os 4 V's principais do Big Data.
  • Os Profissionais Cientista de Dados (Data Scientist) e Engenheiro de Dados (Data Engineer).
  • Data Lake.
  • IoT - Internet das Coisa e Big Data.
  • Principais Ferramentas de Big Data.
  • Licenciamento (Free Software X Open Source).

Introdução ao Hive, Impala e Pig.

  • Apache Hive.
  • Apache Impala.
  • Apache Pig.
  • Schema e Datastore.
  • Arquitetura.
  • Comparando Hive X Impala X Pig.
  • Hive X Presto.
  • Comparação do Hive,Impala e banco de dados tradicionais.
  • Empresas usando Hive, Impala e Pig no Brasil e no Mundo.
  • Casos de uso do Hive, Impala e Pig.
  • Comunidades Hive, Impala e Pig.
  • Versões do Hive, Impala e Pig.

Overview de instalação do Hive, Impala e Pig.

  • Pré-requisitos de instalação.
  • variáveis de ambiente.
  • Principais arquivos de configuração.

Analisando Dados com Apache Hive e Apache Impala.

  • Banco de Dados e Tabelas.
  • Tipos de dados.
  • HCatalog.
  • Hive QL.
  • Hive e Impala Query Language Syntax.
  • Usando o HUE para executar Querys.
  • Beeline e Hive Shell.
  • Impala Shell.
  • Impala Metadata Caching.
  • Operadores.
  • Funções escalares.
  • Funções de Agregação.
  • Union e Join.
  • Trabalhando com NULL.
  • Alias.
  • Filtros, Ordenações e Limites de Resultados.
  • Expressões regulares.
  • Analise de Texto.

Gerenciamento de Dados.

  • Datatorage.
  • Criando tabelas e bancos de dados.
  • Carregando dados.
  • Alterando tabelas e bancos de dados.
  • Criando e usando Views.
  • Armazenando resultados de Consultas.

Formato de Dados.

  • Os principais formatos de dados.
  • Apache Avro.
  • Apache Parquet.
  • Apache ORC.
  • Escolhendo o formato de dados ideal.

Particionamento.

  • Introdução a Particionamento.
  • Alta performance.
  • Particionamento de tabelas.
  • Carregando dados em tabelas particionadas.

Otimização do Apache Hive e Apache Impala.

  • Query Performance.
  • Bucketing.
  • Hive com Spark.
  • Impala Performance.

Extendendo o Hive e o Impala.

  • UDFs.
  • SerDes.

Melhorias e Futuro.

  • Hive Mall.
  • Hive LLAP.
  • TEZ.

Analisando dados com Pig

  • Tipo de Dados.
  • Pig e MapReduce.
  • Componentes.
  • Modos de Execução.
  • PigLatin.
  • Scripts Pig.
  • Executando scripts pig.
  • Integrando Pig e Hive.
  • Integrando Pig e Impala.

Carga Horária.

  • 32 Horas.

Público Alvo.

  • Analistas de Dados.
  • Engenheiros de Dados.
  • DBAs
  • Desenvolvedores.
  • Cientistas de Dados.

Pré-requisitos.

  • Conhecimento básico em algum sistema operacional (Windows, Linux ou MAC)
  • Conhecimento básico de banco de dado e SQL.
  • Conhecimento básico de programação (Scripts SQL).

Requisitos:

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos Recomendados de Hardware e Software.

  • Memória RAM: 8GB.
  • Espaço em Disco: 20GB.
  • Processador: 64 bits (chipsts de x64).
  • CPU: 2 núcleos.
  • Sistemas Operacionais: GNU/Linux, Windows ou MacOS.
  • VirtualBox.

Material.

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Hive, Impala e Pig e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Brindes: Caneta, Pasta e Bloco de Anotações. (Somente em presenciais)

Metodologia.

  • O treinamento apresenta uma empresa fictícia onde será implantado as ferramentas de analise  e todas as fases da implantação para analise usando Hive, Impala e Pig.
  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Hive, Impala e Pig e cursos Hive, Impala e Pig. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Inscrições, Informações e Valores

https://www.ambientelivre.com.br/contato.html

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 17 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

3.535 profissionais capacitados em 325 turmas ministradas.

Atuação global, 807 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.230 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutor

Leia mais...

Log in