Tutoriais Alfresco

Estrela inativaEstrela inativaEstrela inativaEstrela inativaEstrela inativa
 

Este material foi produzido pela Ambiente Livre Labs, divisão de pesquisa em FLOSS da Ambiente Livre. Esta demanda surgiu de um processo de implantação do Alfresco Platform uma empresa do setor hospitalar no Brasil que precisava indexar conteúdos de PDF que não eram PDF/a (Pesquisáveis ).

O problema.

O problema inicial surgiu quando instalamos o plugin alf-tengine-ocr no Alfresco Platform testamos e identificamos que algumas palavras do idioma português não eram bem interpretadas no Tesseract, analisamos o container do plugin e vimos que o mesmo não vem com o suporte a linguagem portuguesa instalada na imagem, mesmo setando o  parâmetro "por", abreviação de portuguese, na variável de ambiente do container docker vai docker-compose, o mesmo emitia logs de erro de falta de suporte. Esta parâmetro invoca o  modelo treinado para português e isso melhora muito o reconhecimento de palavras em português: acentos, cedilhas, conjugações, etc.

O Plugin alf-tengine-ocr (Alfresco Transformer from PDF to OCRd PDF).

o Alfresco Transformer from PDF to OCRd PDF (alf-tengine-ocr) é um transformador de documentos para o Alfresco que adiciona OCR (Reconhecimento Óptico de Caracteres) a arquivos PDF. Ele usa o ocrmypdf e o Tesseract para gerar PDFs pesquisáveis. Compatível com Alfresco 7.0 ou superior, pode ser usado via Docker. O projeto facilita a integração do OCR diretamente no fluxo de transformação de documentos.

Pré-requisitos deste tutorial.

  • Ter um Alfresco instalado com Alfresco Installer.
  • Ter o docker-compose.yml já gerado com o transform-ocr.
  • Conhecimento Básico de Alfresco, docker e docker-compose.

Versões.

Este artigo foi desenvolvido com a versão Alfresco 23, e deve funcionar em suar versões superiores.

Dockerfile para personalização da imagem.

  1. Crie o diretório para o Dockerfile do tesseract-ocr.
    cd /opt/alfresco
    mkdir tesseract-ocr
  2. Crie o arquivo Dockerfile.

    nano Dockerfile
  3. Adicione o conteúdo a seguir criando o arquivo Dockerfile, (pode customizar conforme necessário, desta forma ele aceita qualquer outra língua setada)

    FROM angelborroy/alfresco-tengine-ocr:1.0.0
    ARG languages

    USER root

    # Install additional Tesseract languages
    RUN langs=$(echo $languages | tr "," "\n"); \
    apt-get update; \
    for l in $langs; \
    do \
    sleep 10; \
    apt-get install -y tesseract-ocr-$l; \
    done

    USER alfte
  4. Aqui consideramos que já instalou o plugin via Alfresco Installer, customize o arquivo  docker-compose.yml substituindo o seu conteúdo original pelo conteúdo a seguir, mas deve manter sua configuração de memória original, caso queira instalar outras linguagens basta informar no ARGs languages separado por vírgula:
    ** Atenção no exemplo abaixo o restante do arquivo foi suprimido (...)

    ...
        transform-ocr:
            build:
              context: ./transform-ocr
              args:
                languages: por
            image: angelborroy/alfresco-tengine-ocr:1.0.0
            mem_limit: 1536m
            environment:
              JAVA_OPTS: "
                  -XX:MinRAMPercentage=50 -XX:MaxRAMPercentage=80
                  -Dserver.tomcat.threads.max=4
                  -Dserver.tomcat.threads.min=1
                "
              OCRMYPDF_ARGUMENTS: "--skip-text -l por"
    ...
  5. Agora basta parar o Alfresco e executar o start do Alfresco com a opção --build do docker.
    docker-compose down
    docker-compose up -d --build
  6. Pronto basta usar agora o Alfresco com OCR e com suporte a língua portuguesa.

Sobre o Alfresco ECM.

O Alfresco é uma plataforma de software para gestão de conteúdo (ECM) integrado com softwares de gestão de processo (BPMs), com licença open Source (Apache 2.0) e mantido pela Hyland.

Sobre a Edtech Ambiente Livre.

É uma Spinoff que está em Beta na Ambiente Livre e já tem um treinamento lançado em EAD sob demanda sobre Alfresco

Conheça o treinamento On demand de Alfresco em : https://www.ambientelivre.com.br/treinamento/alfresco/fundamental.html

A plataforma e 100% Open Source!

Sobre a Ambiente Livre

Ambiente LivreAmbiente Livre é especialista em Open Source e Free Software e tem uma divisão especialista em ECM e BPM. Fornece implantação, integração, suporte, consultoriatreinamento em ECM e BPM com as plataformas Alfresco , ActivitiFlowableCamunda a mais de 10 anos.

Já capacitou centenas de empresas para trabalhar com Business Intelligence, ECM, BPM, CRM e Big Data e usa uma metodologia própria de ensino.

Conheça também as divisões de Business IntelligenceCRM e CMS e Big Data e Data Science.

 

Referências.

Alfresco Transformer from PDF to OCRd PDF - https://github.com/aborroy/alf-tengine-ocr
Tesseract https://github.com/tesseract-ocr/tesseract
Alfresco Installer - https://github.com/aborroy/alfresco-installer

Autor

Marcio Junior Vieira

 

  • 22 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de gestão empresarial e ciência de dados.
  • CEO da Ambiente Livre atuando como Cientista de Dados, Engenheiro de Dados e Arquiteto de Software.
  • Professor dos MBAs em Big Data & Data Science, Inteligência Artificial e Business Intelligence da Universidade Positivo.
  • Professor de BPM no MBA de Business Intelligence da Universidade Positivo.
  • Professor do MBA Artificial Intelligence e Machine Learning da FIAP.
  • Pesquisador pela Universidade de Brasília no Laboratório de Tecnologias da Tomada de Decisão - UnB/LATITUDE.
  • Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
  • Palestrante FLOSS em: FISL, The Developes Conference, Latinoware, Campus Party, Pentaho Day, Ticnova, PgDay e FTSL.
  • Organizador Geral: Pentaho Day 2017, 2015, 2019 e apoio nas ed. 2013 e 2014.
  • Data Scientist, instrutor e consultor de Big Data e Data Science com tecnologias abertas.
  • Ajudou a capacitar equipes de Big Data na IBM, Accenture, Tivit, Sonda, Serpro, Dataprev, Natura, MP, Netshoes, Embraer entre outras.
  • Especialista em implantação e customização de Big Data com Hadoop, Spark, Pentaho, Cassandra e MongoDB.
  • Contribuidor de projetos open sources ou free software internacionais, tais como Pentaho, Apache Hop, LimeSurveySuiteCRM e Camunda.
  • Especialista em implantação e customização de ECM com Alfresco e BPM com ActivitiFlowable e Camunda.
  • Certificado (Certified Pentaho Solutions) pela Hitachi Vantara (Pentaho inc).
  • Ganhou o prêmio Camunda Champion em 2022 em reconhecimento a suas contribuições com o projeto Open Source Camunda.
  • Membro da The Order Of de Bee (Comunidade Alfresco trabalhando para desenvolver o ecossistema Alfresco independente)

 

Log in