Treinamento

Treinamento Apache Spark com Scala para Desenvolvedores

 

Sobre o Treinamento

O treinamento Apache Spark para desenvolvedores foi desenvolvido para que os  alunos possam após o treinamento ser capaz de construir aplicações de Big Data usando uma das tecnologias mais modernas para processamento massivo o Spark, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Scala e o Framework de código aberto Apache Spark. Entender os principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs, saber escrever scripts Spark com acesso a HDFS, Hive, HBase e interações com outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real.


Turmas Somente inCompany

 

Conteúdo Programático

Conceitual Big Data e Spark

  • Visão geral sobre Hadoop.
  • Características do Hadoop.
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop.
  • Quem usa o Hadoop.
  • Cases do uso Hadoop.
  • Uso de Hadware comum.
  • Distribuições do Hadoop ( Cloudera X Hortonworks X Apache).

Introdução a Linguagem Scala

  • O que é Scala?
  • Apresentando Scala.
  • Instalando Scala.
  • Journey - Java para Scala
  • First Dive -  Interactive Scala.
  • Escrevendo scripts Scala - Compilando Programas Scala.
  • Basico em Scala.
  • Tipos Básicos Scala.
  • Definindo Funções.
  • IDE para Scala.
  • Scala Community.

Essencial em Scala

  • Imutabilidade em Scala - Semicolons.
  • Declaração método.
  • Literais.
  • Listas.
  • Tuplas.
  • Opções.
  • Maps.
  • Palavras reservadas.
  • Operadores.
  • Regras de precedência.
  • If Statements.
  • Scala Para Compreensão.
  • While Loops, Do-While Loops.
  • Operadores condicionais.
  • Pattern Matching.
  • Enumerações.

Traits e OOPs em Scala

  • Traits Intro - Traits as Mixins.
  • Stackable Traits.
  • Criando Traits e OOPS - Classes and Objetos Básicos.
  • Construtores Scala.
  • Nested Classes.
  • Visibility Rules.

Programação Funcional em Scala

  • O que é programação funcional?
  • Literais funcionais e Closures.
  • Recursão.
  • Tail Calls.
  • Estruturas de Dados Funcionais.
  • Parâmetros das Funções implícitas.
  • Chamada por nome.
  • Chamada por Valor.

Instalação do Apache Spark

  • Instalando o Spark.
  • Modos do Spark.
  • Standalone Cluster.

Primeiros passos em Apache Spark

  • Invocando Spark Shell.
  • Criando o Contexto Spark.
  • Carregando um arquivo no Shell.
  • Realizando algumas operações básicas em arquivos em Spark Shell.
  • Construindo um Projeto com sbt.
  • Executando o Projecto Spark com sbt.
  • Caching Overview, Persistência Distribuído.
  • Spark  Streaming Overview.
  • Exemplo: Streaming Word Count.

RDD - Resilient Distributed Dataset

  • Transformações no RDD.
  • Ações em RDD.
  • Carregando dados em RDD.
  • Salvando dados através RDD.
  • Key-Value Pair RDD.
  • MapReduce e Operações RDD Pair.
  • Integração Scala e Hadoop.
  • Arquivos de seqüência.
  • Usando Partitioner e seu impacto na melhoria do desempenho.

Apacke Spark com SQL e Hadoop Hive

  • Arquitetura Analyze Hive.
  • Arquitetura Spark SQL.
  • Analyze Spark SQL.
  • Context em Spark SQL.
  • Integrando Hive e Spark SQL.

Apache Spark e Pentaho

  • Overview Suite Pentaho.
  • Pentaho data Integration e AEL - Adaptative Execution Layer.
  • Orquestrando Apache Spark com Pentaho Data Integration.
  • Data Visualization

 

Carga Horária:

  • 32 Horas.

Pré-requisitos dos Participantes:

  • Conhecimento em Programação Java ou alguma linguagem com Orientação Objeto.
  • Noções de Big Data.
  • Conhecimento de Banco de Dados e SQL.
  • Conhecimento Básico de Linux.
  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

  • Memória RAM : 8GB.
  • Espaço em Disco: 10GB.
  • Processador: Dual-core AMD 64, EM64T
  • deve estar ativo a Virtualização na BIOS do equipamento.
  • Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox.
  • Oracle VM VirtualBox ( https://www.virtualbox.org/ ).
  • Obs. Equipamentos com menos que 8GB de Memória RAM ( Entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Spark e Scala e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações ( slides do treinamento ) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.
  • Caneta, Pasta e Bloco de Anotações.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

 

 

 
Leia mais...

Treinamento Apache Hadoop - Big Data Open Source - Fundamental Destaque

 

Sobre o Treinamento

O treinamento fundamental em Apache Hadoop prepara profissionais para o mercado de trabalho com Hadoop. Seu conteúdo programático foi desenvolvido para que profissionais possam implementar soluções de Big Data em suas corporações. O mesmo abrange, conceitos , conhecimentos de uso dos softwares, interação programática e atividades práticas.


Calendário de turmas abertas

  1. São Paulo
  2. Curitiba
  • Data: - -
  • Local: Avenida Paulista.
  • Contato
  • Data: - -
  • Local: Sede da Ambiente Livre
  • Contato
next
prev

Conteúdo Programático

Conceitual Big Data

  • O que é Big Data?
  • Os 4 V's principais do Big Data.
  • O Profissional Cientista de Dados / Data Scientist.
  • Data Lake.
  • IoT - Internet das Coisa e Big Data.
  • Ferramentas de Big Data.
  • Software Livre X Open Source.
  • GPL X BSD/Apache.

Conceitual Apache Hadoop

  • Visão geral sobre Hadoop
  • Características do Hadoop
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop
  • Quem usa o Hadoop
  • Cases do uso Hadoop
  • Uso de Hadware comum.
  • Distribuições do Hadoop

Instalação do Apache Hadoop

  • Requisitos de Instalação
  • Adquirindo os pacotes de Instalação
  • Modo de Instalação ( SingleCluster, Distribuid Mode )
  • Configuração do Ambiente de Rede
  • Configurando Yarn.
  • Criando diretórios físicos para o Filesystem
  • Formatação do FileSystem
  • Inicializando Serviços
  • Iniciando o cluster com seus nós
  • Testando Processos ativos

HDFS

  • Conceitual HDFS
  • HDFS - Hadoop FileSystem
  • HDFS - MapReduce Data Flow
  • HDFS - Arquitetura
  • Comandos de manipulação do FileSystem
  • Copiando arquivos para o FileSystem
  • Listando arquivos no HDFS
  • Criando e Removendo Diretórios
  • Interface Web do HDFS

MapReduce

  • Conceitual Map Reduce.
  • MapReduce X Hadoop.
  • MapReduce - Função Map.
  • MapReduce - Função Reduce.
  • Fluxo de Trabalho.
  • Executando um MapReduce.
  • MapReduce no cluster.
  • Configurando a IDE Eclipse para MapReduce.
  • Criando um novo MapReduce.

CDH - Cloudera Hadoop

  • Usando a Distribuição Cloudera.
  • Componentes do CDH.
  • Cloudera Hadoop X Apache Hadoop.
  • Interface de gerenciamento Web (HUE).

Introdução a outras ferramentas de trabalho

  • Hortonworks.
  • Apache Mahout.
  • Hbase - Banco de dados distribuído orientado a coluna.
  • Pig - Plataforma de alto nível para a criação de programas MapReduce.
  • Hive - uma infraestrutura de data warehouse sobre o Hadoop.
  • Apache Cassandra - Banco de dados distribuído altamente escalável.
  • Apache Sqoop.
  • Pentaho Data Integration e Hadoop.

 

Carga Horária:

  • 24 Horas.

 

Pré-Requisitos:

  • Conhecimento básico em programação Java.
  • Noções de Big Data.
  • Conhecimento de banco de dados e SQL
  • Conhecimento básico de Linux

 

Próxima turma prevista, veja também acima no calendário outras cidades.

  • Data: - -
  • Local: São Paulo - SP - Avenida Paulista.
  • Contato
Leia mais...
Se inscrever nesse feed RSS

Log in