Big Data/Data Science

Treinamento Pentaho Data Integration - Kettle

Sobre o Treinamento

O treinamento é recomendado a profissionais que busca maximizar seus conhecimentos em processos de ETL (Extract, Transform e Load). O Pentaho Data Integration (também conhecido como Kettle) é uma poderosa ferramentas para transformações de dados (ETL), com o PDI (Pentaho Data Integration) você pode fazer tarefas como migração de dados, transformação de dados, conversões de sistemas ou carga de bancos de dados, além de tarefas avançadas como transferência de arquivos, envios de e-mails, integração com webservices (SOAP ou REST) e programações de scripts com schedules.
Todo o treinamento utiliza a versão Community Edition e pode ser interpretado como uma transferência de tecnologia para os participantes do curso.

Objetivo

Ministrar as principais funcionalidades e técnicas do Pentaho Data Integration (Kettle) para a geração transformação de dados.

Público Alvo

Desenvolvedores de ETL, Engenheiro de dados, Analistas de Negócio, Analistas de Business Intelligence, DBAs, desenvolvedores de sistemas, analistas de suporte.

Conteúdo Programático:

Conceituais:

Instalação - Pentaho Data Integration

PDI - Pentaho Data Integration - Fundamentos

  • Componentes do Pentaho Data Integration (Kettle).
  • Spoon.
  • Pan.
  • kitchen.
  • Steps e Hops.
  • Transformação de dados.
  • Transformando dados em bases de dados Dimensionais (OLAP).
  • Populando tabelas (Dimensões e Fatos).
  • Integração entre Sistemas Transacionais.
  • Trabalhando com Merge de dados.
  • Trabalhando com constantes.
  • Explorando componentes.
  • Enviando e-mails.
  • Trabalhando com Jobs.

PDI – Automatizando Jobs e Transformações

  • Automatizando Jobs e Transformações via agendador (Schedulers no Linux e Windows).
  • Passando Parâmetros via linha de comando.
  • Passagem de parâmetro entre transformações e Jobs.
  • Trabalhando com Logs.

Trabalhando com Planilhas e Arquivos Texto

  • Transformando Planilhas em bases de dados SQL.
  • Transformando Base de Dados SQL em Planinhas.
  • Transformando arquivos texto em bases de dados SQL.
  • Transformando Base de dados SQL em arquivos Texto (posicional ou delimitado).

Steps Complementares e Avançados

  • Steps de Input (Get System info ,get File Names, OLAP Input ,Email messages input).
  • Steps de Transformação ( Row denormaliser , Row flattener ,Row Normaliser ,Split field to Rows, Split Fields).
  • Steps Utility (Clone Row , If field value is null, Run SSH commands).
  • Steps Lookup (Call DB procedure, Check if a column exists, check if file is locked, Database Join, Database lookup, File Exists).
  • Steps Joins ( Join Rows ( cartesian product ), Merge rows (diff), Sorted Merge , XML Join).
  • Steps Experimentais (Script Javascript , Script Python).
  • Steps Jobs – Utility (ping a Host, Truncate tables).
  • Steps Jobs – Mail (Get mails POP3/IMAP).
  • Steps File management (Copy Files, create file, create a folder, file comparate, delete files, delete folters, Zip file).
  • Steps Condition (Check DB connection, Check webservice availability).
  • Steps Scripting (Javascript, Shell, SQL).
  • Steps XML (DTD Validation).
  • Steps File Transfer (FTP delete, Get a file with FTP, Get a file with SFTP, Upload files to FTPS, SSH2 Get, SSH2 Put).

PDI - WebServices e HTTP

  • Acesso a WebServices com Web services lookup (SOAP).
  • Acesso a WebServices REST com step Rest Client.
  • Gerando JSON para envio por REST com os steps JSON Output e JavaScript.
  • Chamadas HTTP por URL com step HTTP Client.
  • Chamadas submit via Post/HTTP com o step HTTP Post.

Carte – Execução remota

  • Conceitos do Carte.
  • Modos de Execução do Pentaho Data Integration.
  • Executando Transformações e Jobs remotamente.
  • Monitorando execuções remotas.
  • Master e Slaves com Carte.
  • Conceitual Dynamic Cluster.
  • Introdução a Data Staging.

Carga Horária

  • 16 Horas de Duração

MODALIDADES DE TREINAMENTO

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Pré-Requisitos

  • Conhecimento básico em lógica de programação.
  • Conhecimento básico banco de dados.
  • Conhecimento em SQL ANSI.

Requisitos dos Alunos

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM : 4GB
  • Espaço em Disco: 5GB
  • Processador: Dual-core AMD 64, EM64T
  • Sistemas Operacionais: GNU/Linux, Windows.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Pentaho CE e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

 

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Pentaho e cursos Pentaho. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.


A marca Pentaho é uma marca registrada pela Hitachi Vantara.

Inscrições, Informações e Valores


Instrutor

Leia mais...

Treinamento Apache Hadoop - Big Data Open Source

 

Sobre o Treinamento

O treinamento fundamental em Apache Hadoop prepara profissionais para o mercado de trabalho com Hadoop. Seu conteúdo programático foi desenvolvido para que profissionais possam implementar soluções de Big Data em suas corporações. O mesmo abrange, conceitos , conhecimentos de uso dos softwares, interação programática e atividades práticas.

Conteúdo Programático

Conceitual Big Data

  • O que é Big Data?
  • Os 4 V's principais do Big Data.
  • O Profissional Cientista de Dados / Data Scientist.
  • Data Lake.
  • IoT - Internet das Coisa e Big Data.
  • Ferramentas de Big Data.
  • Software Livre X Open Source.
  • GPL X BSD/Apache.

Conceitual Apache Hadoop

  • Visão geral sobre Hadoop
  • Características do Hadoop
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop
  • Quem usa o Hadoop
  • Cases do uso Hadoop
  • Uso de Hadware comum.
  • Distribuições do Hadoop

Instalação do Apache Hadoop

  • Requisitos de Instalação
  • Adquirindo os pacotes de Instalação
  • Modo de Instalação ( SingleCluster, Distribuid Mode )
  • Configuração do Ambiente de Rede
  • Configurando Yarn.
  • Criando diretórios físicos para o Filesystem
  • Formatação do FileSystem
  • Inicializando Serviços
  • Iniciando o cluster com seus nós
  • Testando Processos ativos

HDFS

  • Conceitual HDFS.
  • HDFS - Hadoop FileSystem.
  • HDFS - MapReduce Data Flow.
  • HDFS - Arquitetura.
  • Comandos de manipulação do FileSystem.
  • Copiando arquivos para o FileSystem.
  • Listando arquivos no HDFS.
  • Criando e Removendo Diretórios.
  • Interface Web do HDFS.

MapReduce

  • Conceitual Map Reduce.
  • MapReduce X Hadoop.
  • MapReduce - Função Map.
  • MapReduce - Função Reduce.
  • Fluxo de Trabalho.
  • Executando um MapReduce.
  • MapReduce no cluster.
  • Configurando a IDE Eclipse para MapReduce.
  • Criando um novo MapReduce.

CDH - Cloudera Hadoop

  • Usando a Distribuição Cloudera.
  • Componentes do CDH.
  • Cloudera Hadoop X Apache Hadoop.
  • Interface de gerenciamento Web (HUE).

Introdução a outras ferramentas de trabalho

 

Carga Horária:

  • 24 Horas.

 

Pré-Requisitos:

  • Conhecimento básico em programação Java.
  • Noções de Big Data.
  • Conhecimento de banco de dados e SQL
  • Conhecimento básico de Linux

 

Próxima turma prevista, veja também acima no calendário outras cidades.

  • Data: -
  • Local: Google Meet
  • Contato

Inscrições, Informações e Valores


Instrutor

Leia mais...

Treinamento em Scylla - Fundamental

O treinamento fundamental em Scylla Database NoSQL prepara profissionais para o mercado de trabalho com um banco de dados distribuído altamente escalável. Seu conteúdo programático foi desenvolvido para que profissionais possam implementar soluções de Big Data e NoSQL em suas corporações. O mesmo abrange, conceitos, conhecimentos de uso dos softwares, interação programática e atividades práticas.


Conteúdo Programático.

Conceitual Scylla.

Características do Scylla.

  • Escalabilidade Linear.
  • Alta disponibilidade.
  • Alto desempenho.
  • NoSQL X SQL.
  • CAP Theorem.
  • Arquitetura.
  • Tolerância a Falhas.
  • Versões do Scylla.

Instalação do Scylla

  • Requisitos de Instalação.
  • Adquirindo os pacotes de Instalação.
  • Modo de Instalação.
  • Configuração um cluster Scylla.
  • Iniciando o cluster com seus nós.
  • Introdução ao nodetools.

SDM e CQL (Scylla Data Model e Cassandra Query Language )

  • A linguagem CQL.
  • Flexibilidade do CQL.
  • Tables.
  • Column Family.
  • Row Key.
  • Columns, Columns name e Columns Values.
  • KeySpace.
  • Timestamps.
  • Partition Key Simples e Composta e Indexação.
  • Insert.
  • Select.
  • Consultas indexadas.
  • Batch Statements.

Assuntos Complementares.

 

Carga Horária:

  • 24 Horas de duração.

 

Modalidades do Treinamento:

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Pré-Requisitos:

  • Conhecimento de comandos e servidores Linux.
  • Conhecimento básico de programação.
  • Conhecimento Básico em modelo de dados, banco de dados e SQL.

Requisitos:

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para OnLine ter uma boa conectividade com a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 12 alunos para um melhor desempenho.

Requisitos mínimos de hardware

  • Memória RAM : 8GB
  • Espaço em Disco: 20GB
  • Processador: Dual-core AMD 64, EM64T
  • Sistemas Operacionais: GNU/Linux, Windows.
  • VirtualBox.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Scylla e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

 

Metodologia

 

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

 

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Scylla e cursos Scylla. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

 

Inscrições, Informações e Valores.


Instrutor

Leia mais...

Treinamento Apache Parquet

O treinamento em Apache Parquet tem foco em aprofundar o conhecimento de engenheiros de dados do formato mais utilizado pelos ambiente de Big data da atualidade, além dos conceitos, vantagens e arquitetura os profissionais poderão administrar a forma mais interessante do Parquet para seu ambiente de dados/Big data. O treinamento passa pelo fundamental e estende-se ao avançado.

Calendário de turmas.

Somente no modelo corporativo no momento.

Conteúdo Programático

Conceitual.

  • Introdução a Big data.
  • Arquivos serializados.
  • Formato Colunar.
  • O Software Apache Parquet.
  • Motivações do Parquet.
  • Software Livre x Open Source.
  • Licenciamento.
  • Apache Software Foundation.
  • Histórico do Parquet.
  • Empresas usando Parquet no Mundo.
  • Empresas usando Parquet no Brasil.
  • Comunidade Parquet.
  • Versões do Parquet.

Apache Parquet

Compactação e Criptogratia.

  • Tipos de Compactação.
  • Vantagens e Desvantagens.
  • Criptografia do Parquet.

Parquet no Ecossistema de Big Data.

Build

  • Apache Maven.
  • Compilando o Parquet.

Módulos

Parquet na Cloud.

  • AWS S3 Inventory

Gerais.

  • Extendendo o Parquet.
  • Config Row group size.
  • Config Data page size

Carga Horária.

  • 4 Horas.

Modalidade do Treinamento.

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Pré-Requisitos.

  • Conhecimento Básico em algum Sistema Operacional (Windows, Linux ou MAC)
  • Conhecimento Básico de de Hadoop e HDFS.

Requisitos:

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos Recomendados de Hardware.

  • Memória RAM: 8GB.
  • Espaço em Disco: 20GB.
  • Processador: 64 bits (chipsets de x64).
  • CPU: 2 núcleos.
  • Sistemas Operacionais: GNU/Linux, Windows.

Material.

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Parquet e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas com exercícios práticos (hacks) desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia.

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Apache Parquet e cursos Apache Parquet . caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Inscrições, Informações e Valores


Diferenciais da Ambiente Livre.

A Ambiente Livre tem 22 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

5.007 profissionais capacitados em 399 turmas ministradas.

Atuação global, 845 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.980 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutor

Leia mais...

Treinamento Apache Iceberg

O treinamento em Apache Iceberg tem foco em aprofundar o conhecimento de engenheiros de dados sobre um dos formatos de tabela mais avançados para ambientes de Big Data. Além dos conceitos, vantagens e arquitetura, os profissionais aprenderão a gerenciar tabelas Iceberg, otimizando particionamento, leitura incremental e time travel para seu ambiente de dados. O treinamento abrange desde os fundamentos até técnicas avançadas.

Calendário de turmas.

Somente no modelo corporativo no momento.

Dificuldade: Média.

Aplicabilidade.

Este treinamento foi desenvolvido usando o Apache Iceberg 1.8.1. e foi modificado pela última vez em 1 de Março de 2025.

Conteúdo Programático

Conceitual.

  • Introdução a Big Data.
  • Arquivos serializados.
  • Formato Colunar.
  • Data Swamp.
  • Datawarehouse X Data Lake X Data Lakehouse.
  • O Software Apache Iceberg.
  • Motivações do Apache Iceberg.
  • Software Livre x Open Source.
  • Licenciamento.
  • Apache Software Foundation.
  • História e evolução do Apache Iceberg.
  • Empresas usando Iceberg no Mundo.
  • Empresas usando Iceberg no Brasil.
  • Comunidade Apache Iceberg.
  • Versões do Apache Iceberg.
  • Vendedores e Distribuições do Apache Iceberg.

Apache Iceberg

  • Arquitetura do Apache Iceberg.
  • Vantagens e benefícios do uso do Apache Iceberg.
  • Apache Iceberg X Parquet x JSON x CSV x Apache ORC.
  • Compreensão dos tipos de dados suportados.
  • Metadados: Manifests, Manifest Lists, e Snapshots.
  • Suporte a ACID (Atomicidade, Consistência, Isolamento e Durabilidade).
  • Estratégias de particionamento oculto.
  • Indexação de dados.

Instalando o Apache Iceberg

  • Instalação do Apache Iceberg em diferentes ambientes (local, cluster, cloud).
  • Configuração inicial e melhores práticas.
  • Construção de tabelas Iceberg.

Leitura e escrita do Apache Iceberg.

  • Como escrever dados no formato Iceberg usando diversas linguagens (Python, Java, Scala).
  • Modos de escrita: Append, Overwrite e Merge.
  • Otimização da escrita para grandes volumes de dados.
  • Como ler dados Iceberg em diferentes ambientes e linguagens.
  • Técnicas de leitura incremental (Read Snapshots, Time Travel).
  • Otimização da leitura para consultas eficientes.

Otimização e Desempenho.

  • Estratégias para otimizar consultas em tabelas Iceberg.
  • Uso de índices e metadados para acelerar leituras.
  • Técnicas de compactação e remoção de arquivos órfãos (garbage collection).

Compactação e Particionamento.

  • Compactação de dados para reduzir fragmentação de arquivos.
  • Particionamento oculto e dinâmico.
  • Estratégias avançadas para otimizar particionamento.

Integração com Ferramentas de Big Data.

Casos de Uso.

Carga Horária.

  • 24 Horas.

MODALIDADES DE TREINAMENTO

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Pré-Requisitos.

  • Conhecimento básico em algum Sistema Operacional (Windows, Linux ou MAC)
  • Conhecimento básico do Ecossistema de Big Data.

Requisitos:

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos Recomendados de Hardware.

  • Memória RAM: 8GB.
  • Espaço em Disco: 20GB.
  • Processador: 64 bits (chipsets de x64).
  • CPU: 2 núcleos.
  • Sistemas Operacionais: GNU/Linux, Windows.

Material.

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Iceberg e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas com exercícios práticos (hacks) desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia.

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos Apache Iceberg e cursos Apache Iceberg . caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Inscrições, Informações e Valores


Diferenciais da Ambiente Livre.

A Ambiente Livre tem 22 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

5.007 profissionais capacitados em 399 turmas ministradas.

Atuação global, 845 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.980 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutor

Leia mais...

Treinamento Real-Time Analytics com Apache Spark Streaming com Python

O treinamento Real-Time Analytics com Apache Spark Streaming e Python foi desenvolvido para que os alunos possam após o treinamento ser capaz de construir aplicações de Big Data e Analytics em Real-Time, usando as tecnologias mais modernas para processamento massivo o Spark Streaming com apoio de bibliotecas Python como Pandas e Numpy, são abordados conhecimentos de arquitetura e ecossistemas fundamentais para a programação com a linguagem Python e o Framework de Open Source Apache Spark, usando os modulos Apache Spark Streaming e Spark Machine Leaning Lib. Entender os principais conceitos e fluxo de trabalho de implementação, dominar tópicos avançados de manipulação de RDDs e DataFrames, e saber escrever scripts Spark com acesso a HDFS e interações com outros projetos do ecossistema Hadoop necessários para a análise de dados. Saber fazer uso de motores de processamento e desenvolver soluções que utilizam componentes em todo hub de dados da empresa. Ser capaz de construir aplicativos usando Apache Spark para processamento de stream combinando dados históricos com dados de streaming, através de análises interativas em tempo real e finalizar apresentando as informações em componentes de visualização de dados.

Calendário de turmas.

Somente turma corporativas.

Conteúdo Programático

Conceitual Big Data e Streaming.

  • Streaming de Dados.
  • Stream X Batch.
  • Real-time Stream.
  • Visão geral sobre Hadoop.
  • Características do Hadoop.
  • Sistema distribuído de arquivos.
  • Ecossistema Hadoop.
  • Quem usa o Hadoop.
  • Cases do uso Hadoop.
  • Uso de Hadware comum.
  • Distribuições do Hadoop (Cloudera x Hortonworks x Apache).
  • Free Software(GLP) X Open Source(BSD, Apache, etc)
  • Apache Software Foundation.
  • Kafka x RabbitMQ x Spark Stream x Flink Stream.

Instalação do Ambiente Python e Spark.

  • Pré-requisitos.
  • Instalando o Python.
  • Instalando uma IDE Python.
  • Conhecendo o PyPI.
  • Instalando Pandas.
  • Instalando Numpy.
  • Instalando Pyarrow.
  • Instalando Py4J.
  • Instalando o Spark.
  • Modos do Spark.
  • Standalone Cluster.

Programação Funcional em Python e PySpark.

  • O que é programação funcional?
  • Literais funcionais e Closures.
  • Recursão.
  • Tail Calls.
  • Estruturas de Dados Funcionais.
  • Parâmetros das Funções implícitas.
  • Chamada por nome.
  • Chamada por Valor.
  • PySpark.
  • Python Package Management.
  • Virtualenv.
  • PEX.

Primeiros passos em Apache Spark

  • Invocando Spark Shell.
  • Criando o Contexto Spark.
  • Carregando um arquivo no Shell.
  • Realizando algumas operações básicas em arquivos em Spark Shell.
  • Construindo um Projeto com sbt.
  • Executando o Projecto Spark com sbt.
  • Caching Overview, Persistência Distribuído.

RDD - Resilient Distributed Dataset

  • Transformações no RDD.
  • Ações em RDD.
  • Carregando dados em RDD.
  • Salvando dados através RDD.
  • Key-Value Pair RDD.
  • MapReduce e Operações RDD Pair.
  • Integração Python e Hadoop.
  • Arquivos de seqüência.
  • Usando Partitioner e seu impacto na melhoria do desempenho.

Formatos de Armazenamento

Apache Spark SQL e PySpark.

  • DataFrame API.
  • Spark SQL.
  • Arquitetura Spark SQL.
  • Analyze Spark SQL.
  • Context em Spark SQL.
  • UDF.
  • Spark Session.
  • Column API.
  • Data Types.
  • Row.
  • Function.
  • Window.
  • Grouping.

Apache Spark e Pandas.

  • Apache Arrow.
  • Convertendo dados para o Pandas.
  • Pandas UDF.
  • Pandas Function.
  • PyArrow.

Analise de Dados com Python.

  • NumPy.
  • Pandas.
  • Slicing com NumPy.
  • Reshaping Arrays.
  • Pandas e Dataframes.
  • Pandas - Multi Dimension.
  • Pandas - Group By.
  • Pandas - Rashape.
  • Map,Filter e Reduce.
  • Lambda.
  • NumPy - Join,Split.
  • Array Numpy.
  • SQL Join Tables Pandas.
  • Pandas, NumPy e PySpark.

Apache Spark Streaming

Apache Spark MLlib

  • Machine Learning com Apache Spark.
  • Aprendizagem Supervisionada.
  • Aprendizagem Não Supervisionada.
  • Aprendizagem por Reforço.
  • MapReduce com PySpark.
  • DStreams.
  • Spark MLLib - Regressão Linear.
  • Spark MLLib - Classificação com Algoritmo Decision Tree.
  • Spark MLLib - Classificação com Algoritmo Random Forest.
  • Spark MLLib - Classificação com Algoritmo Naive Bayes.
  • Spark MLLib - Clusterização com Algoritmo K-Means.
  • Spark MLLib - Algoritmos de Recomendações.

Data Visualization Tools.

  • Técnicas de Data Visualization.
  • Matplotlib.
  • Seaborn.
  • ggPlot.

Carga Horária:

  • 32 Horas.

Pré-requisitos dos Participantes:

  • Conhecimento em Programação e Python.
  • Conhecimento de Banco de Dados e SQL.
  • Conhecimento Básico de Linux.
  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos mínimos de hardware:

  • Memória RAM : 8GB.
  • Espaço em Disco: 10GB.
  • Processador: Dual-core AMD 64, EM64T
  • deve estar ativo a Virtualização na BIOS do equipamento.
  • Sistemas Operacionais:Qualquer um com suporte e Virtualização com VirtualBox.
  • VirtualBox ( https://www.virtualbox.org/ ).
  • Obs. Equipamentos com menos que 8GB de Memória RAM (entre 5GB e 8GB) podem passar por lentidão nas atividades de uso de maquinas virtuais simultâneas no treinamento. Equipamentos com 4GB ou inferior não funcionarão para o treinamento.

Material

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares Apache Spark e Python e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas digitais dos softwares desenvolvidas pela Ambiente Livre.
  • Apostilas com exercícios práticos desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas

Diferenciais da Ambiente Livre.

A Ambiente Livre tem 22 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

5.007 profissionais capacitados em 399 turmas ministradas.

Atuação global, 845 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.980 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Inscrições, Informações e Valores


Instrutor

Leia mais...

Treinamento RabbitMQ

O treinamento em RabbitMQ e voltado para Desenvolvedores, Arquitetos e Administradores que tem a necessidade de trabalhar com Message-broker e suas aplicações ou arquiteturas complexas.

O Software RabbitMQ é um sistema de mensagens corporativas altamente confiável que implementa o AMQP (Advanced Message Queuing Protocol).

Calendário de turmas.

Somente no modelo corporativo no momento.

Conteúdo Programático.

Conceitual.

  • Introdução a Big Data.
  • Ecossistema de Filas.
  • O Software RabbitMQ.
  • Message-broker.
  • Advanced Message Queuing Protocol (AMQP).
  • MQ Telemetry Transport (MQTT)
  • Streaming Text Oriented Messaging Protocol (STOMP).
  • Software Livre x Open Source.
  • Pivotal.
  • Histórico do Parquet.
  • Empresas usando RabbitMQ no Mundo.
  • Empresas usando RabbitMQ no Brasil.
  • Comunidade RabbitMQ.
  • Versões do RabbitMQ.

RabbitMQ.

  • Arquitetura do RabbitMQ.
  • Consumer.
  • Producer.
  • Bindings consumers e producers.
  • Mensagens e durabilidade.
  • Como verificar a entrega.

Instalação do RabbitMQ.

CLI Tools.

  • interface de linha de comando.
  • RabbitMQ CLI Tools.
  • rabbitmqctl.
  • rabbitmq-diagnostics.
  • rabbitmq-plugins.
  • rabbitmq-queues.

Administração do RabbitMQ.

  • rabbitmqadmin.
  • Start e Stop Nodes.
  • Configurações do RabbitMQ.
  • Privilégios.
  • Estatísticas e análise de registros.
  • Enviando alertas.
  • Processamento paralelo.
  • O plugin RabbitMQ Management.
  • Gerenciando RabbitMQ a partir do console da web.
  • Administração de usuários a partir do console da web.
  • Gerenciando a fila do console web.

Client Libraries.

  • Java Client.
  • Java e Spring.
  • Spring com RabbitMQ.
  • JMS Client.
  • Erlang Client.

Cluster RabbitMQ.

  • Arquitetura de um cluster.
  • Filas.
  • Configurando um cluster.
  • Distribuir os nodes.
  • Filas espelhadas.
  • Failover e Replication.
  • Load balancer-based.
  • Master/Slave.
  • Shovel.

RabbitMQ na Cloud.

API REST.

Gerais.

Carga Horária.

  • 24 Horas.

Modalidade do Treinamento.

  • Presencial - Abrimos turmas onde pode se inscrever, atuamos na maioria das capitais Brasileiras.
  • On Line Ao Vivo - Fazemos a transmissão Online do Treinamento.
  • In Company (Presencial ou Online) - Turmas Fechadas para empresas a custo único para até 15 Alunos.

Pré-Requisitos.

  • Conhecimento Básico em algum Sistema Operacional (Windows, Linux ou MAC)
  • Conhecimento Básico de Programação.

Requisitos:

  • Todos os participantes devem trazer um notebook para realizar as atividades práticas.
  • O Computador deve estar  com acesso de administrador para possibilitar instalações de aplicativos e acesso a Internet.
  • Para turmas In-Company não trabalhamos com limite de participantes para os treinamentos, orientamos que as turmas sejam de até 15 alunos para um melhor desempenho.

Requisitos Recomendados de Hardware.

  • Memória RAM: 8GB.
  • Espaço em Disco: 20GB.
  • Processador: 64 bits (chipsets de x64).
  • CPU: 2 núcleos.
  • Sistemas Operacionais: GNU/Linux, Windows.

Material.

Serão disponibilizados os seguintes materiais aos alunos do treinamento:

  • Todos os softwares RabbitMQ e acessórios na sua última versão estável.
  • Material próprio em Português do Brasil.
  • Apresentações (slides do treinamento) desenvolvidas pela equipe Ambiente Livre.
  • Apostilas com exercícios práticos (hacks) desenvolvidos no treinamento.
  • Materiais e documentações complementares desenvolvido pela Comunidade Open Source Mundial.

Metodologia.

  • Todos os dias serão apresentados novos recursos e conceitos e avaliados através de exercícios práticos em todas as aulas.

Estamos localizados em Curitiba e atendemos em todo Brasil com treinamentos em RabbitMQ e cursos em RabbitMQ. caso necessite de um treinamento customizado com suas necessidades também elaboramos estes treinamentos. solicite proposta comercial.

Inscrições, Informações e Valores


Diferenciais da Ambiente Livre.

A Ambiente Livre tem 22 anos no mercado, pioneirismo na oferta de consultoria, treinamentos, projetos e suporte em softwares de código-fonte aberto e software livre com um ecossistema voltado a negócios, e pode lhe ajudar a gerir complexidades, reduzir custos, permitindo adaptar e oferecer inovação inteligente necessária para o seu sucesso.

5.007 profissionais capacitados em 399 turmas ministradas.

Atuação global, 845 empresas impactadas em projetos, consultorias e treinamentos no Brasil, América Latina, Europa e África.

Networking entre profissionais, comunidades e startups de tecnologias Open Source e Free Software.

Treinamentos baseados em experiência de projetos e consultorias, 2.980 tutorais documentados, atualizados e disponibilizado de forma vitalícia em EAD.

Empresa 100% focada em Open Source e Free Software e contribuidora com equipe atuante nos projetos e eventos de código aberto e software livre.

Apoio na criação de 4 startups / Spin-off baseadas em soluções Open Source ou Free Software.

Instrutor

Leia mais...

Consultoria em Big Data e Data Science

Administrar os dados de sua empresa com metodologias, técnicas e ferramentas ideais pode colocar sua empresa em outro patamar. Em busca da produtividade dos serviços e produtos atuais, assim como inovação para criação de novos serviços e novos produtos. O Big Data é uma abordagem para armazenamento de um grande volume de dados de tipos variados, para que possam ser processados com alta velocidade mesmo com alto volume. O Data Science ou Ciência dos Dados é a ciência que busca encontrar insights relevantes e úteis para seus negócios. 

Leia mais...

Log in