Chez Capsiel nous proposons des logiciels de classement du courrier, des emails et des fax.

La technologie utilisée depuis 2010 et régulièrement mise à jour permet de classer dans des catégories prédéfinies les textes de tous types de documents. Pour y parvenir nous utilisons plusieurs solutions OCR d’Entreprise, à mêmes de traiter de gros volumes de documents.

Et nous utilisons les solutions de différents fournisseurs afin de réutiliser au maximum l’infrastructure présente chez nos clients et de réaliser des économies sur les projets.

Avant de faire un choix :

Volume de document à traiter et durée du projet

C’est une des premières questions à se poser : quel volume, et sur quelle durée ? Dans une optique d’entreprise de long terme, l’OCR est un outil important puisqu’il est le point de départ de la Gestion par le Contenu (ECM).

Certaines solutions permettent des abonnements à court terme pour une opération ponctuelle, d’autres nécessitent une infrastructure et un projet pérenne pour être rentabilisées.

Reconnaissance des manuscrits

Les logiciels de reconnaissance optique OCR ne sont pas des outils de LAD, et ne sont pas très efficaces sur les écritures curvilignes.

A titre d’information le manuscrit représente 7% des flux dans une caisse de retraite où les adhérents (souvent 55 ans et plus) sont naturellement plus conservateurs de par l’âge auquel la retraite devient un point d’intérêt important, ce sans aucun jugement de valeur bien entendu.

Types de documents en entrée (et en sortie)

Tous les OCR fonctionnement avec des images en entrée. Mais le besoin peut-être de traiter des PDF, des documents Word… De même il faut se préoccuper du format de sortie : l’idéal étant un OCR qui permet d’obtenir plusieurs formats : par exemple un PDF/A-1 pour le stockage à long terme, un TXT pour réaliser de le classement du document.

En complément certains OCR permettent d’obtenir dans le PDF, le texte complet, avec en première couche l’image d’origine, ainsi si le texte contient des erreurs, l’image est toujours humainement lisible et non dégradée.

Infrastructure technique

Ces outils sont plutôt consomateurs de CPU, et certains ne fonctionnement que sous Windows ou sur Linux. Il est indispenable de lire les recommandations matérielles et les prérequis logiciels des éditeurs.

Par exemple : 2000 courriers par jour (environ 400 000 par an) sont facilement traités en une demie journée sur un dual core ( et en seulement 15 minutes par ALADiN ce qui fait que tous les courriers seront déjà classés lorsque le dernier aura terminé sa phase OCR)

Solutions OCR

ABBYY Recognition Server www.abbyy.com/recognition-server

ABBYY Cloud OCR SDK ocrsdk.com

CVISION Tech Maestro Recognition Server

IRIS IRISDocument™ - Server

Expertvision

Nuance OmniPage

Solutions OCR OpenSource

Tesseract OCR code.google.com/p/tesseract-ocr

OpenOCR openocr.net

Autres Solutions

SDK OmniPage Capture

OCR intégré aux Multifonctions d’entreprise

Moins précis que les solutions d’entreprise pour ceux rencontrés, ils peuvent être utilisés pour des POC et des projets non stratégiques, à moindre coûts. De plus ils sont souvent des points d’entrés facilement accessibles et permettent de paralléliser les numérisations sur l’ensemble des utilisateurs.

OCR sur mobile

Aucun OCR testé n’a jamais donné de résultats corrects sans une numérisation à 300 DPI. Si une photo permet de reconnaître une marque, un logo ou un titre, il reste une marge de progression encore manquante pour obtenir des résultats fiables. De plus la lumière doit être adaptée et le moindre mouvement nécesssitera de refaire la photo. Un résultat OCR partiel donnant une forte probabilité d’avoir à retrouver à postériori les documents d’origines pour refaire les opérations OCR longues et coûteuses en temps machine, il est intéressant de se poser la question si l’entreprise anticipe des projets de BigData dès un premier projet nécessitant un OCR, ou non.

OCR sur PC de Bureau

Ils permettent de travailler sur des faibles volumes de documents et peuvent donc être utilisés pour certains projets. Plusieurs des éditeurs de solutions d’entreprise proposent également des solutions pour PC.

(647 mots)