Sizing - Requisitos de infraestrutura para instalação do Apache Hop
- Escrito por Marcio Junior Vieira
- Publicado em Tutoriais Apache Hop
- Hits: 709

Sugestões Gerais de Sizing para Apache Hop.
O Apache Hop e um projeto incubado na Apache Software Foundation fork do Pentaho Data Integration, é uma poderosa ferramentas para transformações de dados (ETL). Muitos clientes e usuários precisam de uma base para criação de seus ambientes iniciais para uso do Apache Hop corporativamente, descrevemos neste artigo alguns cenários para ajudar a ter uma referência por número de usuários, mas como o Apache Hop pode ser usado de múltiplas formas e atender a ambientes simples e complexos, a referência deve ser sempre adaptada conforme necessidade.
Cenário 1 - Desenvolvimento Mínimo Exigido (Ambiente Local).
Para desenvolvedores que vão crias pipelines e workflows de dados na solução Open Source Apache Hop usando a infraestrutura local (seu computador/desktop) o mínimo para o uso é bem simples, mas não recomendamos começar com tão pouco pois a experiência com dados complexos pode gerar uma experiências ruins, mas para aprender o Apache Hop é aceitável
- Processadores: 1 Cores de processamento.
- Memória RAM.: 4 GB.
- Disco/Storage: 2GB (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Windows, Linux ou MacOs.
Cenário 2 - Desenvolvimento Recomendável (Ambiente Local).
Para desenvolvedores que vão crias pipelines e workflows de dados na solução Open Source Apache Hop usando a infraestrutura local (seu computador/desktop) o recomendável para o uso é e para ter uma boa experiência com dados complexos.
- Processadores: 4 Cores de processamento.
- Memória RAM.: 8 GB.
- Disco/Storage: 10GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Recomendamos Linux (qualquer distribuição).
Cenário 3 - Homologação e QA (Ambiente Server) - de 5 a 10 Usuários
O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).
- Servidores: 1 Servidor
- Processadores: 6 Cores de processamento.
- Memória RAM.: 10 GB.
- Disco/Storage: 50GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Recomendamos Linux (qualquer distribuição).
Cenário 4 - Homologação e QA (Ambiente Server) - de 10 a 50 Usuários
O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).
- Servidores: 1 Servidor
- Processadores: 12 Cores de processamento.
- Memória RAM.: 16 GB.
- Disco/Storage: 50GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Recomendamos Linux (qualquer distribuição).
Cenário 5 - Produção (Ambiente Server) - de 1 a 50 workflows/pipelines simultâneos.
O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).
- Servidores: 1 Servidor
- Processadores: 12 Cores de processamento.
- Memória RAM.: 16 GB.
- Disco/Storage: 100GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Recomendamos Linux (qualquer distribuição).
Cenário 6 - Produção (Ambiente Server) - de 50 a 100 workflows/pipelines simultâneos.
O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).
- Servidores: 1 Servidor
- Processadores: 24 Cores de processamento.
- Memória RAM.: 32 GB.
- Disco/Storage: 200GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Recomendamos Linux (qualquer distribuição).
Cenário 7 - Produção (Ambiente Server Cluster) - de 100 a 200 workflows/pipelines simultâneos.
O Apache Hop pode aceitar execuções remotas e pode ser executado no modo cluster para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).
- Servidores: 2 Servidor
- Processadores: 24 Cores de processamento para cada servidor.
- Memória RAM.: 32 GB para cada servidor.
- Disco/Storage: 200GB dedicado ao Hop para cada servidor (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Recomendamos Linux (qualquer distribuição).
Cenário 8 - Produção (Ambiente Server Cluster) - de 200 a 400 workflows/pipelines simultâneos.
O Apache Hop pode aceitar execuções remotas e pode ser executado no modo cluster para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).
- Servidores: 4 Servidor
- Processadores: 24 Cores de processamento para cada servidor.
- Memória RAM.: 32 GB para cada servidor.
- Disco/Storage: 200GB para cada servidor (Varia de acordo com a quantidade de dados que serão processados).
- Sistema Operacional: Recomendamos Linux (qualquer distribuição).
Versões do Apache Hop.
Este tutorial foi escrito na Versão 2.0 do Apache Hop
Sobre a Ambiente Livre
A Ambiente Livre é especialista em Open Source e Free Software e tem uma divisão especialista em Business Intelligence e Business Analytics. Fornece implantação, integração, suporte, consultoria e treinamento Business Intelligence com a plataforma Pentaho Business Intelligence e Analytics a mais de 10 anos.
Já capacitou centenas de empresas para trabalhar com Business Intelligence, ECM, BPM, CRM e Big Data e usa uma metodologia própria de ensino.
Conheça também as divisões de ECM e BPM, CRM e CMS e Big Data e Data Science.
Autor

Marcio Junior Vieira
- 22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
- CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
- Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
- Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
- Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
- Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
- Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
- Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
- Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
- Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
- Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
- Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
- Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurvey, SuiteCRM e Camunda.
- Especialista em implantação e customização de ECM com Alfresco e BPM com Activiti, Flowable e Camunda.
- Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
- Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
- Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)