Tutoriais Hop

  • Escrito por Marcio Junior Vieira
  • Publicado em Tutoriais Apache Hop
  • Hits: 709
Estrela inativaEstrela inativaEstrela inativaEstrela inativaEstrela inativa
 

 

Sugestões Gerais de Sizing para Apache Hop.

Apache Hop e um projeto incubado na Apache Software Foundation fork do Pentaho Data Integration, é uma poderosa ferramentas para transformações de dados (ETL). Muitos clientes e usuários precisam de uma base para criação de seus ambientes iniciais para uso do Apache Hop corporativamente, descrevemos neste artigo alguns cenários para ajudar a ter uma referência por número de usuários, mas como o Apache Hop pode ser usado de múltiplas formas e atender a ambientes simples e complexos, a referência deve ser sempre adaptada conforme necessidade.

 

Cenário 1 - Desenvolvimento Mínimo Exigido (Ambiente Local).

Para desenvolvedores que vão crias pipelines e workflows de dados na solução Open Source Apache Hop usando a infraestrutura local (seu computador/desktop) o mínimo para o uso é bem simples, mas não recomendamos começar com tão pouco pois a experiência com dados complexos pode gerar uma experiências ruins, mas para aprender o Apache Hop é aceitável

  • Processadores: 1 Cores de processamento.
  • Memória RAM.: 4 GB.
  • Disco/Storage: 2GB (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Windows, Linux ou MacOs.

Cenário 2 - Desenvolvimento Recomendável (Ambiente Local).

Para desenvolvedores que vão crias pipelines e workflows de dados na solução Open Source Apache Hop usando a infraestrutura local (seu computador/desktop) o recomendável para o uso é e para ter uma boa experiência com dados complexos.

  • Processadores: 4 Cores de processamento.
  • Memória RAM.: 8 GB.
  • Disco/Storage: 10GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 3 - Homologação e QA (Ambiente Server) - de 5 a 10 Usuários

O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus  ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

  • Servidores: 1 Servidor
  • Processadores: 6 Cores de processamento.
  • Memória RAM.: 10 GB.
  • Disco/Storage: 50GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 4 - Homologação e QA (Ambiente Server) - de 10 a 50 Usuários

O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus  ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

  • Servidores: 1 Servidor
  • Processadores: 12 Cores de processamento.
  • Memória RAM.: 16 GB.
  • Disco/Storage: 50GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 5 - Produção (Ambiente Server) - de 1 a 50 workflows/pipelines simultâneos.

O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus  ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

  • Servidores: 1 Servidor
  • Processadores: 12 Cores de processamento.
  • Memória RAM.: 16 GB.
  • Disco/Storage: 100GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 6 - Produção (Ambiente Server) - de 50 a 100 workflows/pipelines simultâneos.

O Apache Hop pode aceitar execuções remotas enviadas dos ambiente de desenvolvimento para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus  ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

  • Servidores: 1 Servidor
  • Processadores: 24 Cores de processamento.
  • Memória RAM.: 32 GB.
  • Disco/Storage: 200GB dedicado ao Hop (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 7 - Produção (Ambiente Server Cluster) - de 100 a 200 workflows/pipelines simultâneos.

O Apache Hop pode aceitar execuções remotas e pode ser executado no modo cluster para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus  ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

  • Servidores: 2 Servidor
  • Processadores: 24 Cores de processamento para cada servidor.
  • Memória RAM.: 32 GB para cada servidor.
  • Disco/Storage: 200GB dedicado ao Hop para cada servidor (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Cenário 8 - Produção (Ambiente Server Cluster) - de 200 a 400 workflows/pipelines simultâneos.

O Apache Hop pode aceitar execuções remotas e pode ser executado no modo cluster para este cenário devemos prever o número de pipelines e workflows que serão executados e suas características e complexidades mas vamos recomendar um número para usuários que estejam criando seus  ambiente iniciais e precisem de uma referência de sizing, sempre ciente que cada caso terá particularidades que serão identificadas de acordo com seus pipelines e workflows. Estas configurações são validas também caso use ambiente de containers (Docker, Kubernetes, OpenShift, Ranger, etc).

  • Servidores: 4 Servidor
  • Processadores: 24 Cores de processamento para cada servidor.
  • Memória RAM.: 32 GB para cada servidor.
  • Disco/Storage: 200GB para cada servidor (Varia de acordo com a quantidade de dados que serão processados).
  • Sistema Operacional: Recomendamos Linux (qualquer distribuição).

Versões do Apache Hop.

Este tutorial foi escrito na Versão 2.0  do Apache Hop

 

Sobre a Ambiente Livre

Ambiente LivreAmbiente Livre é especialista em Open Source e Free Software e tem uma divisão especialista em Business Intelligence e Business Analytics. Fornece implantação, integração, suporte, consultoria e treinamento Business Intelligence com a plataforma Pentaho Business Intelligence e Analytics a mais de 10 anos.

Já capacitou centenas de empresas para trabalhar com Business Intelligence, ECM, BPM, CRM e Big Data e usa uma metodologia própria de ensino.

Conheça também as divisões de ECM e BPMCRM e CMS e Big Data e Data Science.

 

Autor

Marcio Junior Vieira

 

  • 22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
  • Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
  • Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurveySuiteCRM e Camunda.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com ActivitiFlowable e Camunda.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
  • Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
  • Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

 

Log in