Instalando o Pentaho Data Integration - PDI - (Kettle) no Linux
- Escrito por Marcio Junior Vieira
- Publicado em Tutoriais Pentaho Business Intelligence e Analytics
- Hits: 39531
O Pentaho Data Integration ou também chamado por seu codinome de projeto como Kettle e uma ferramenta de ETL (Extração, Transformação e Carga do inglês Extract, Transform and Load) que faz parte da plataforma Pentaho Business Intelligence e Analitycs. O mesmo pode ser instalado separadamente sem a necessidade de mais nenhum dos softwares adicional da plataforma de BI do Pentaho e usado exclusivamente para ETL.
Pré-Requisitos.
O único pré-requisito e ter um runtime Java (máquina virtual java ) instalada ou uma JDK (Kit de Desenvolvimento Java) , que pode ser de implementação aberta ( OpenJDK) ou fechada ( como a da Oracle) e pode ser realizado o download em https://www.oracle.com/technetwork/pt/java/javase/downloads/index.html. Cada versão do Pentaho Data Integration teremos uma versão do Java, no momento que escrevemos neste artigo usamos a versão 8.3 do Pentaho Data Integration que exige a versão 1.8 do Java ou superior.
Curiosidade: Um apelido do Pentaho Data Integration usado pela maioria dos desenvolvedores e usuário do Pentaho Data Integration é a sigla PDI.
Download.
Primeiramente acesse o repositório oficial do Pentaho no SourgeForge.net em http://sourceforge.net/projects/pentaho/files/ depois selecione a versão mais recente (ex. Pentaho 8.3) e depois acessar a divisão client-tools (onde estão as ferramentas clients), quando descrevemos este artigo a ultima versão era a 8.3, e o arquivo para realizar o download neste caso era o pdi-ce-8.3.0.0-371.zip (tanto para GNU/Linux como Windows o pacote de instalação e o mesmo o .zip)
Instalando o Pentaho Data Integration.
- Para instalar o Pentaho Data Integration no Linux crie o diretório em /opt/pentaho/client-tools como o comando mkdir -p /opt/pentaho/client-tools (Está é uma recomendação e não obrigatoriedade, funciona em qualquer diretório).
- Descompacte o pacote pdi-ce-x.xx.zip ( onde xx é sua versão ) no diretorio /opt/pentaho/client-tools será criado o diretório data-integration.
- Pelo prompt shell acesse o diretório data-integration e de permissão a todos os arquivos com extensão .sh como o comando a seguir:
chmod 755 *.sh
- O Pentaho Data Integration tem 4 componentes de software (spoon, carte, kitchen e pan) o responsável pela criação dos ETLs (Transformações e Jobs) de forma visual é o Spoon e para iniciar o Spoon do Pentaho Data Integration execute o comando:
./spoon.sh
- Será aberto a PDI com a tela de inicialização abaixo e em seguida o ambiente de trabalho de Transformações e Jobs.


Observações específicas de alguns sistemas operacionais.
Pentaho Data Integration no Ubuntu 11.04.
Quem estiver utilizando o Pentaho Data Integration com o Ubuntu 11.04 poder estar tendo o seguinte problema, ao tentar arrastar os steps para um transformação os mesmos não ficam na área de transformação. constatamos isso numa versão especifica do ubuntu ainda no PDI 5, conforme a imagem a seguir.

Para corrigir esse problema siga os seguintes passos:
- Remova as bibliotecas lib:
overlay-scrollbar
liboverlay-scrollbar-0.1-0
- Para remover utilize o seguinte comando:
sudo apt-get remove overlay-scrollbar liboverlay-scrollbar-0.1-0
- Reinicie o Pentaho Data Integration
Quer virar um especialista em Pentaho Data Integration? participe de nossas formações especificas do Pentaho Data Integration ou uma formação completa do Pentaho Business Intelligence e Analitycs.
Sobre a Ambiente Livre
A Ambiente Livre é especialista em Open Source e Free Software e tem uma divisão especialista em Business Intelligence e Business Analytics. Fornece implantação, integração, suporte, consultoria e treinamento Business Intelligence com a plataforma Pentaho Business Intelligence e Analytics a mais de 10 anos.
Já capacitou centenas de empresas para trabalhar com Business Intelligence, ECM, BPM, CRM e Big Data e usa uma metodologia própria de ensino.
Conheça também as divisões de ECM e BPM, CRM e CMS e Big Data e Data Science.
Autor

Marcio Junior Vieira
- 22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
- CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
- Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
- Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
- Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
- Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
- Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
- Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
- Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
- Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
- Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
- Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
- Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurvey, SuiteCRM e Camunda.
- Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
- Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
- Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
- Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)
