Qua Mar 27

Sizing - Requisitos de infraestrutura para instalação do Apache Hop

Escrito por Marcio Junior Vieira
Publicado em Tutoriais Apache Hop
Hits: 486

Sugestões Gerais de Sizing para Apache Hop.

O Apache Hop e um projeto incubado na Apache Software Foundation fork do Pentaho Data Integration, é uma poderosa ferramentas para transformações de dados (ETL). Muitos clientes e usuários precisam de uma base para criação de seus ambientes iniciais para uso do Apache Hop corporativamente, descrevemos neste artigo alguns cenários para ajudar a ter uma referência por número de usuários, mas como o Apache Hop pode ser usado de múltiplas formas e atender a ambientes simples e complexos, a referência deve ser sempre adaptada conforme necessidade.

Cenário 1 - Desenvolvimento Mínimo Exigido (Ambiente Local).

Para desenvolvedores que vão crias pipelines e workflows de dados na solução Open Source Apache Hop usando a infraestrutura local (seu computador/desktop) o mínimo para o uso é bem simples, mas não recomendamos começar com tão pouco pois a experiência com dados complexos pode gerar uma experiências ruins, mas para aprender o Apache Hop é aceitável

Processadores: 1 Cores de processamento.
Memória RAM.: 4 GB.
Disco/Storage: 2GB (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Windows, Linux ou MacOs.

Cenário 2 - Desenvolvimento Recomendável (Ambiente Local).

Para desenvolvedores que vão crias pipelines e workflows de dados na solução Open Source Apache Hop usando a infraestrutura local (seu computador/desktop) o recomendável para o uso é e para ter uma boa experiência com dados complexos.

Processadores: 4 Cores de processamento.
Memória RAM.: 8 GB.
Disco/Storage: 10GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 3 - Homologação e QA (Ambiente Server) - de 5 a 10 Usuários

O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

Servidores: 1 Servidor
Processadores: 6 Cores de processamento.
Memória RAM.: 10 GB.
Disco/Storage: 50GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 4 - Homologação e QA (Ambiente Server) - de 10 a 50 Usuários

Servidores: 1 Servidor
Processadores: 12 Cores de processamento.
Memória RAM.: 16 GB.
Disco/Storage: 50GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 5 - Produção (Ambiente Server) - de 1 a 50 workflows/pipelines simultâneos.

Servidores: 1 Servidor
Processadores: 12 Cores de processamento.
Memória RAM.: 16 GB.
Disco/Storage: 100GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 6 - Produção (Ambiente Server) - de 50 a 100 workflows/pipelines simultâneos.

Servidores: 1 Servidor
Processadores: 24 Cores de processamento.
Memória RAM.: 32 GB.
Disco/Storage: 200GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 7 - Produção (Ambiente Server Cluster) - de 100 a 200 workflows/pipelines simultâneos.

O Apache Hop pode aceitar execuções remotas e pode ser executado no modo cluster para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

Servidores: 2 Servidor
Processadores: 24 Cores de processamento para cada servidor.
Memória RAM.: 32 GB para cada servidor.
Disco/Storage: 200GB dedicado ao Hop para cada servidor (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 8 - Produção (Ambiente Server Cluster) - de 200 a 400 workflows/pipelines simultâneos.

Servidores: 4 Servidor
Processadores: 24 Cores de processamento para cada servidor.
Memória RAM.: 32 GB para cada servidor.
Disco/Storage: 200GB para cada servidor (Varia de acordo com a quantidade de dados que serão processados).
Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Versões do Apache Hop.

Este tutorial foi escrito na Versão 2.0 do Apache Hop

Sobre a Ambiente Livre

A Ambiente Livre é especialista em Open Source e Free Software e tem uma divisão especialista em Business Intelligence e Business Analytics. Fornece implantação, integração, suporte, consultoria e treinamento Business Intelligence com a plataforma Pentaho Business Intelligence e Analytics a mais de 10 anos.

Já capacitou centenas de empresas para trabalhar com Business Intelligence, ECM, BPM, CRM e Big Data e usa uma metodologia própria de ensino.

Conheça também as divisões de ECM e BPM, CRM e CMS e Big Data e Data Science.

Tutoriais Hop