Hadoop Fundamental

Treinamento Apache Hadoop - Big Data Open Source - Fundamental

Sobre o Treinamento

O treinamento fundamental em Apache Hadoop prepara profissionais para o mercado de trabalho com Hadoop. Seu conteúdo programático foi desenvolvido para que profissionais possam implementar soluções de Big Data em suas corporações. O mesmo abrange, conceitos , conhecimentos de uso dos softwares, interação programática e atividades práticas.

Calendário de turmas abertas

Curitiba

Data: 28 Abril de 2020 - 30 Abril de 2020 8:30 - 17:30
Local: Sede da Ambiente Livre
Contato

Time left to event

next

prev

Conteúdo Programático

Conceitual Big Data

O que é Big Data?
Os 4 V's principais do Big Data.
O Profissional Cientista de Dados / Data Scientist.
Data Lake.
IoT - Internet das Coisa e Big Data.
Ferramentas de Big Data.
Software Livre X Open Source.
GPL X BSD/Apache.

Conceitual Apache Hadoop

Visão geral sobre Hadoop
Características do Hadoop
Sistema distribuído de arquivos.
Ecossistema Hadoop
Quem usa o Hadoop
Cases do uso Hadoop
Uso de Hadware comum.
Distribuições do Hadoop

Instalação do Apache Hadoop

Requisitos de Instalação
Adquirindo os pacotes de Instalação
Modo de Instalação ( SingleCluster, Distribuid Mode )
Configuração do Ambiente de Rede
Configurando Yarn.
Criando diretórios físicos para o Filesystem
Formatação do FileSystem
Inicializando Serviços
Iniciando o cluster com seus nós
Testando Processos ativos

HDFS

Conceitual HDFS.
HDFS - Hadoop FileSystem.
HDFS - MapReduce Data Flow.
HDFS - Arquitetura.
Comandos de manipulação do FileSystem.
Copiando arquivos para o FileSystem.
Listando arquivos no HDFS.
Criando e Removendo Diretórios.
Interface Web do HDFS.

MapReduce

Conceitual Map Reduce.
MapReduce X Hadoop.
MapReduce - Função Map.
MapReduce - Função Reduce.
Fluxo de Trabalho.
Executando um MapReduce.
MapReduce no cluster.
Configurando a IDE Eclipse para MapReduce.
Criando um novo MapReduce.

CDH - Cloudera Hadoop

Usando a Distribuição Cloudera.
Componentes do CDH.
Cloudera Hadoop X Apache Hadoop.
Interface de gerenciamento Web (HUE).

Introdução a outras ferramentas de trabalho

Hortonworks.
Apache Mahout.
Hbase - Banco de dados distribuído orientado a coluna.
Pig - Plataforma de alto nível para a criação de programas MapReduce.
Hive - uma infraestrutura de data warehouse sobre o Hadoop.
Apache Cassandra - Banco de dados distribuído altamente escalável.
Apache Sqoop.
Pentaho Data Integration e Hadoop.

Carga Horária:

24 Horas.

Pré-Requisitos:

Conhecimento básico em programação Java.
Noções de Big Data.
Conhecimento de banco de dados e SQL
Conhecimento básico de Linux

Próxima turma prevista, veja também acima no calendário outras cidades.

Data: 28 Abril de 2020 - 30 Abril de 2020 8:30 - 17:30
Local: Sede da Ambiente Livre
Contato

Time left to event

Inscrições, Informações e Valores

Instrutor

Tags

Marcio Junior Vieira

Marcio Junior Vieira

22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurvey, SuiteCRM e Camunda.
Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

Ítens relacionados

Últimos posts de Marcio Junior Vieira

Log in

crie uma conta