Hadoop e Spark para Desenvolvedores

Treinamento Apache Hadoop e Spark para Desenvolvedores

 

Sobre o Treinamento

O treinamento Apache Hadoop e Apache Spark para desenvolvedores foi desenvolvido para que os  alunos possam após o treinamento ser capaz de construir aplicações de Big Data, com conhecimento de arquitetura e ecossistemas fundamentais para a programação Hadoop MapReduce ou Spark. Entender os principais conceitos e fluxo de trabalho de implentação, dominar tópicos avançados de uso e construção de APIs, saber escrever scripts em Hive, Pig, Sqoop, Flume, Oozie, Hbase e outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.


Calendário de turmas abertas

  1. São Paulo
  • Data: - -
  • Local: Avenida Paulista.
  • Contato
next
prev

Conteúdo Programático

Conceitual Big Data

  • O que é Big Data?
  • Os 4 V's principais do Big Data.
  • O Profissional Cientista de Dados / Data Scientist.
  • Data Lake.
  • IoT - Internet das Coisa e Big Data.
  • Ferramentas de Big Data.
  • Software Livre e Open Source

Conceitual Apache Hadoop

  • Visão geral sobre Hadoop
  • Características do Hadoop
  • Sistema distribuído de arquivos.
  • Ecosistema Hadoop
  • Quem usa o Hadoop
  • Cases do uso Hadoop
  • Uso de Hadware comum.
  • Distribuições do Hadoop

Instalação do Apache Hadoop

  • Requisitos de Instalação
  • Adquirindo os pacotes de Instalação
  • Modo de Instalação ( SingleCluster, Distribuid Mode )
  • Configuração do Ambiente de Rede
  • Configurando Yarn.
  • Criando diretórios físicos para o Filesystem
  • Formatação do FileSystem
  • Inicializando Serviços
  • Iniciando o cluster com seus nós
  • Testando Processos ativos

HDFS

  • Conceitual HDFS
  • HDFS - Hadoop FileSystem
  • HDFS - MapReduce Data Flow
  • HDFS - Arquitetura
  • Comandos de manipulação do FileSystem
  • Copiando arquivos para o FileSystem
  • Listando arquivos no HDFS
  • Criando e Removendo Diretórios
  • Interface Web do HDFS

MapReduce

  • Conceitual Map Reduce
  • MapReduce X Hadoop
  • MapReduce - Função Map
  • MapReduce - Função Reduce
  • Fluxo de Trabalho
  • Executando um MapReduce
  • MapReduce no cluster
  • Configurando a IDE Eclipse para MapReduce
  • Criando um novo MapReduce

CDH - Cloudera Hadoop

  • Usando a Distribuição Cloudera
  • Componentes do CDH.
  • Cloudera Hadoop X Apache Hadoop
  • Interface de gerenciamento Web ( Hue )

Introdução a outras ferramentas de trabalho

  • Hortonworks
  • Apache Mahout.
  • Hbase - Banco de dados distribuído orientado a coluna.
  • Pig - Plataforma de alto nível para a criação de programas MapReduce.
  • Hive - uma infraestrutura de data warehouse sobre o Hadoop.
  • Apache Cassandra - Banco de dados distribuído altamente escalável.
  • Apache Sqoop.
  • Pentaho Data Integration e Hadoop.

 

Carga Horária:

  • 24 Horas.

 

Pré-Requisitos:

  • Conhecimento em Programação Java.
  • Noções de Big Data.
  • Conhecimento de Banco de Dados e SQL
  • Conhecimento Básico de Linux

 

Próxima turma prevista, veja também acima no calendário outras cidades.

  • Data: - -
  • Local: São Paulo - SP - Avenida Paulista.
  • Contato
Marcio Junior Vieira

  • 19 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados e Arquiteto de Software.
  • Prof. dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Prof. do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, LATINOWARE, Campus Party, Pentaho Day, Ticnova e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Serpro, MP, Netshoes, Embraer entre outras.
  • Especialista implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra. Expert em BPM e ECM com Alfresco e Camunda. Participa também de projetos internacionais como LimeSurvey e  SuiteCRM.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho).

Linkedin : https://www.linkedin.com/in/mvieira1/
Blog: http://blogs.ambientelivre.com.br/marcio

Log in