Tutoriais Pentaho

Avaliação do Usuário: 5 / 5

Estrela ativaEstrela ativaEstrela ativaEstrela ativaEstrela ativa
 

 

 

Pentaho Data Integration ou também chamado por seu codinome de projeto como Kettle e uma ferramenta de ETL (Extração, Transformação e Carga do inglês Extract, Transform and Load) que faz parte da plataforma Pentaho Business Intelligence e Analitycs. O mesmo pode ser instalado separadamente sem a necessidade de mais nenhum dos softwares adicional da plataforma de BI do Pentaho e usado exclusivamente para ETL.

Pré-Requisitos.

O único pré-requisito e ter um runtime Java (máquina virtual java ) instalada ou uma JDK (Kit de Desenvolvimento Java) , que pode ser de implementação aberta ( OpenJDK) ou fechada ( como a da Oracle) e pode ser realizado o download em https://www.oracle.com/technetwork/pt/java/javase/downloads/index.html. Cada versão do Pentaho Data Integration teremos uma versão do Java, no momento que escrevemos neste artigo usamos a versão 8.3 do Pentaho Data Integration que exige a versão 1.8 do Java ou superior.

 

Curiosidade: Um apelido do Pentaho Data Integration usado pela maioria dos desenvolvedores e usuário do Pentaho Data Integration é a sigla PDI. 

Download.

Primeiramente acesse o repositório oficial do Pentaho no SourgeForge.net em http://sourceforge.net/projects/pentaho/files/ depois selecione a versão mais recente (ex. Pentaho 8.3) e depois acessar a divisão client-tools (onde estão as ferramentas clients), quando descrevemos este artigo a ultima versão era a 8.3, e o arquivo para realizar o download neste caso era o pdi-ce-8.3.0.0-371.zip (tanto para GNU/Linux como Windows o pacote de instalação e o mesmo o .zip)

Instalando o Pentaho Data Integration.

  • Para instalar o Pentaho Data Integration no Linux crie o diretório em /opt/pentaho/client-tools  como o comando mkdir -p /opt/pentaho/client-tools (Está é uma recomendação e não obrigatoriedade, funciona em qualquer diretório).
  • Descompacte o pacote pdi-ce-x.xx.zip ( onde xx é sua versão ) no diretorio /opt/pentaho/client-tools será criado o diretório data-integration.
  • Pelo prompt shell acesse o diretório data-integration e de permissão a todos os arquivos com extensão .sh como o comando a seguir:

chmod 755 *.sh

  • Pentaho Data Integration tem 4 componentes de software (spoon, carte, kitchen e pan) o responsável pela criação dos ETLs (Transformações e Jobs) de forma visual é o Spoon e para iniciar o Spoon do Pentaho Data Integration execute o comando:

./spoon.sh

  • Será aberto a PDI com a tela de inicialização abaixo e em seguida o ambiente de trabalho de Transformações e Jobs.

 

 

Observações específicas de alguns sistemas operacionais.

Pentaho Data Integration no Ubuntu 11.04.

Quem estiver utilizando o Pentaho Data Integration com o Ubuntu 11.04 poder estar tendo o seguinte problema, ao tentar arrastar os steps para um transformação os mesmos não ficam na área de transformação. constatamos isso numa versão especifica do ubuntu ainda no PDI 5, conforme a imagem a seguir.

 

Para corrigir esse problema siga os seguintes passos:

  • Remova as bibliotecas lib:
    overlay-scrollbar
    liboverlay-scrollbar-0.1-0
  • Para remover utilize o seguinte comando:

    sudo apt-get remove overlay-scrollbar liboverlay-scrollbar-0.1-0
  • Reinicie o Pentaho Data Integration


Quer virar um especialista em Pentaho Data Integration? participe de nossas formações especificas do Pentaho Data Integration ou uma formação completa do Pentaho Business Intelligence e Analitycs.

 

Sobre a Ambiente Livre

Ambiente LivreAmbiente Livre é especialista em Open Source e Free Software e tem uma divisão especialista em Business Intelligence e Business Analytics. Fornece implantação, integração, suporte, consultoria e treinamento Business Intelligence com a plataforma Pentaho Business Intelligence e Analytics a mais de 10 anos.

Já capacitou centenas de empresas para trabalhar com Business Intelligence, ECM, BPM, CRM e Big Data e usa uma metodologia própria de ensino.

Conheça também as divisões de ECM e BPMCRM e CMS e Big Data e Data Science.

 

Autor

Marcio Junior Vieira

 

  • 22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
  • Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
  • Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurveySuiteCRM e Camunda.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com ActivitiFlowable e Camunda.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
  • Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
  • Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

 

Log in